UNIVERSITE ABDELMALEK ESSAADI - IMIST

203
N° d’ordre : 55 Année 2012 UNIVERSITE ABDELMALEK ESSAADI FACULTE DES SCIENCES et TECHNIQUES TANGER UFR : Valorisation Biotechnologique des Micro-Organismes THESE Présentée Pour l’obtention du DOCTORAT EN SCIENCES ET TECHNIQUES Par : Kamar MARRAKCHI Discipline : Bioinformatique Spécialité : Bioinformatique Une approche hybride pour une intégration sémantique des données biologiques de Pseudomonas Soutenue le 19/12/2012 devant le Jury Pr. Ahmed LAMARTI Faculté des SciencesTétouan Président Pr. Mohamed ETTAYEBI Faculté des Sciences Fès Rapporteur Pr. Ismael Navas DELGADO E.T.S. Ingeniería Informática Málaga Rapporteur Pr. M’hamed AIT KBIR Faculté des Sciences et Techniques Tanger Examinateur Pr. Khalid LAIRINI Faculté des Sciences et Techniques Tanger. Examinateur Pr. José F. Aldana MONTES E.T.S. Ingeniería Informática Málaga Co-Directeur Pr. Badr Din ROSSI HASSANI Faculté des Sciences et Techniques Tanger. Co-Directeur

Transcript of UNIVERSITE ABDELMALEK ESSAADI - IMIST

Page 1: UNIVERSITE ABDELMALEK ESSAADI - IMIST

Ndeg drsquoordre 55 Anneacutee 2012

UNIVERSITE ABDELMALEK ESSAADI FACULTE DES SCIENCES et TECHNIQUES

TANGER

UFR Valorisation Biotechnologique des Micro-Organismes

THESE

Preacutesenteacutee

Pour lrsquoobtention du

DOCTORAT EN SCIENCES ET TECHNIQUES

Par Kamar MARRAKCHI

Discipline Bioinformatique

Speacutecialiteacute Bioinformatique

Une approche hybride pour une inteacutegration seacutemantique des donneacutees biologiques

de Pseudomonas

Soutenue le 19122012 devant le Jury

Pr Ahmed LAMARTI Faculteacute des Sciencesndash Teacutetouan Preacutesident

Pr Mohamed ETTAYEBI Faculteacute des Sciences ndash Fegraves Rapporteur

Pr Ismael Navas DELGADO ETS Ingenieriacutea Informaacutetica ndash Maacutelaga Rapporteur

Pr Mrsquohamed AIT KBIR Faculteacute des Sciences et Techniques ndash Tanger Examinateur

Pr Khalid LAIRINI Faculteacute des Sciences et Techniques ndash Tanger Examinateur

Pr Joseacute F Aldana MONTES ETS Ingenieriacutea Informaacutetica ndash Maacutelaga Co-Directeur

Pr Badr Din ROSSI HASSANI Faculteacute des Sciences et Techniques ndash Tanger Co-Directeur

Une approche hybride pour une inte gration se mantique des donne es

biologiques de Pseudomonas

Remerciement

1

Reacute sumeacute

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de

culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas

ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie

par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre

drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a

conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis

de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de

donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la

reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce

travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche

LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage

Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et

lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre

lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes

sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct

de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de

donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et

BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration

seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins

des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des

donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees

heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave

partir drsquoune seules source

Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride

PseudomonasDW

2

Reacutemeacutercieacutemeacutents

3

Reacutemeacutercieacutemeacutents

Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani

pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute

et aideacute tout au long de ses anneacutees de thegravese

Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-

encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de

recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches

Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger

mon travail

Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe

khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton

preacutecieux soutien

A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute

leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont

teacutemoigneacutes

Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec

une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton

encouragement

Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes

compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave

lrsquoavancement de ce travail

Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere

Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma

grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille

Briache

Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail

4

Sommaireacute

5

Sommaireacute

Introduction geacuteneacuterale 18

1 Problematique et motivation 19

2 CADRE ET BUTS DU TRAVAIL 23

3 Les pseudomonas 24

31 Caracteres geacuteneacutereaux 24

32 Pouvoir pathogegravene 26

33 Lutte biologique 27

4 Structure de document 28

Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

1 Introduction 31

2 Eacutetat des sources 32

21 Varieacuteteacute des sources biologiques 33

22 Autonomie et capaciteacutes drsquointerrogation 35

3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37

31 Diversiteacute syntaxique 37

32 Diversiteacute seacutemantique 38

33 Diversiteacute des langages de requecircte 39

34 Diversiteacute des services 39

4 Eleacutements de standardisation 40

41 Format standards et nomenclatures 40

42 Ontologies 41

43 Meacutetadonneacutees 42

44 Langages et formalismes 43

Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46

1 Introduction 47

2 points de variation entre les approches drsquointeacutegration 49

21 Degreacute drsquointeacutegration 49

211 Approche agrave couplage serreacute 49

6

212 Approche agrave couplage lacircche 50

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50

221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50

222 Types drsquointeacutegrations seacutemantique 51

223 Approches ascendante et descendante 51

23 Mateacuterialisation des reacutesultats 52

24 Accegraves aux donneacutees 52

3 approches drsquointeacutegration en bioinformatique 52

31 Approche non mateacuterialiseacutee 53

311 Le systegraveme meacutediateur 53

312 Le systegraveme navigationnel 61

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70

321 Deacutefinition et Architecture 70

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74

324 Les modegraveles des entrepocircts de donneacutees 75

325 Adeacutequation Problegravemes rencontreacutes 81

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82

4 Discussion 86

Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de

Pseudomonas sp 90

1 Introduction 91

2 Vue Global sur le systegraveme PseudomonasDW 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94

211 Bases de donneacutees geacutenomique et proteacuteique 95

212 Bases de donneacutees meacutetaboliques 96

213 Bases de donneacutees Enzymatique 97

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101

31 Scheacutemas de source 101

32 Services de donneacutees 102

321 Architecture du service de donneacutees dans PseudmonasDW 103

7

322 Impleacutementation du service de donneacutees dans PseudmonasDW 104

33 Scheacutema Inteacutegrateur du PseudmonasDW 107

34 Correspondances seacutemantiques entre les scheacutemas 110

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113

36 SB-KOM System Biology Khaos Ontology-based Mediator 115

4 Processus ETL dans Pseudomonasdw 117

5 Discussion et conclusion 123

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

126

1 Introduction 127

2 MODEacuteLISATION de PseudomonasDW 129

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129

22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133

23 Diagramme de classes du systegraveme PseudomonasDW 135

3 IMPLEMENTATION DE PSEUDOMONASDW 135

31 Organisation des bases de donneacutees de PseudomonasDW 136

32 Impleacutementation des bases de donneacutees de PseudomonasDW 139

4 INTERFACE WEB DE PSEUDOMONASDW 141

41 Les Moteurs de rechercheacute dans PseudomonasDW 141

42 Les entreacutees de Pseudomonas DW 144

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147

511 GBrowse Vue geacuteneacuterale 149

512 Installation de GBrowse 149

513 Creacuteation et peuplement des bases de donneacutees MySQL 150

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153

521 Blast Vue geacuteneacuterale 153

522 La fonctionnaliteacute du Blast 154

6 PDWiki 157

61 Geacuteneacuteraliteacute sur les Wikis biologiques 158

62 PDWiki Infrastructure et contenue 159

63 Comment naviguer dans PDWiki 162

8

7 DISCUSSION 163

Conclusions et perspectives 165

1 Reacutesumeacute des contributions 168

2 Ouverture et pistes de recherche 172

Glossaire 174

Annexes 181

Bibliographie 188

Reacutefeacuterences Internet 197

9

INDEX DES FIGURES ET DES TABLES

FIGURES

Figure 1 Architecture dun systegraveme meacutediateur 54

Figure 2 Lapproche GAV (Global As View) 56

Figure 3 Lapproche LAV (Loacl As View) 56

Figure 4 Approche GLAV 57

Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62

Figure 6 Graphe de liens entre les sources 63

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65

Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67

Figure 9 Architecture de BioGuide 69

Figure 10 Architecture dun entrepocirct de donneacutees 71

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de

donneacutees 73

Figure 13 Exemple de cube de donneacutees 76

Figure 14 Modegravele en eacutetoile 78

Figure 15 modegravele en flocon 78

Figure 16 Modegravele en constellation 78

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le

systegraveme PseudmonesDW 103

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108

10

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre

conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux

relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et

les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et

lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la

formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet

sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles

de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en

haut des eacuteleacutements de lontologie en rouge 118

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc

contient des informations pour acceacuteder aux services de donneacutees 119

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat

final de leacutetape ETL au sein de systegraveme PseudomonasDW 121

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction

de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de

chargement de donneacutees au sei de PseudmonasDW 122

Figure 33 Le diagramme de cas dutilisation de lutilisateur 131

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132

Figure 35 Le diagramme de cas dutilisation de ladministrateur 133

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134

Figure 37 Le diagramme conceptuel de PseudomonasDW 137

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A

gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW

A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas

aeruginosa PAO1 139

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees

au niveau de PseudomonasDW 140

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne

la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de

seacutelectionner un champ speacutecifique de recherche 142

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections

Organism et Gene de lentreacutee PAE00524 145

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154

11

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles

lutilisateur peut choisir 155

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences

indeacutependamment des bases de donneacutees de PseudomonasDW 155

Figure50 Exemple de reacutesultat de Blast 157

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir

et annoter lentreacutee PAE00524 de PseudomonasDW 161

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de

PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162

Figure 53 Architecture deXist copy Wolfgang Meier 187

TABLES

Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54

Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117

Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130

Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131

Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140

12

ABREVIATION

13

ABREVIATION

ADN Acide Deacutesoxyribonucleacuteique

API Application Programming Interface

ASN Abstract Syntax Notation

BACIIS Biological And Chemical Information Integration System

BioGRID Biological General Repository for Interaction Datasets

BLAST Basic Local Alignment Search Tool

CGH Comparative genomic hybridization

ChEBI Chemical Entities of Biological Interest

CMR Comprehensive Microbial Resource

CPAN Reacuteseau Complet drsquoArchives Perl

CPL Collection Programming Language

CSS Cascading Style Sheets

CSUQ Computer System Usability Questionnaire

CYGD Comprehensive Yeast Genome Database

DAML DARPA Agent Markup Language

dbEST Expressed Sequences Tags databases

DDBJ DNA Data Bank of Japan

DTD Document Type Definition

EBI European Bioinformatics Institute

EcoCyc Encyclopedia of Escherichia coli

EMBL European Molecular Biology Laboratory

EMBO European Molecular Biology Laboratory

EPG Entity Path Generator

ETL Extraction transformation and loading

ExPASy (Expert Protein Analysis System

FTP File Transfer Protocol

GAM Generic Annotation Management

GAV Global As View

GDB Human Genome Databases

GEDAW Gene Expression DAta Warehouse

GenMapper Genetic Mapper

GEO Gene Expression Omnibus

GeWare Gene Expression Warehouse

14

GFF General Feature Format

GIMS Genome Information Management System

GLAV Generalized Local As View

GMOD Generic Modele Organisme Database project

GNU GNUs Not UNIX

GO Gene Ontology

GPL General Public License

GRAIL GALEN Representation and Integration Language

GUS Genomics Unified Schema

HGNC Human Gene Organisation

HGP Human Genome Project

HGP Human Genome Project

HTML HyperText Markup Language

HTTP Hypertext Transfer Protocol

IBM International Business Machines

ICARUS Interpreter of Commands And Recursive Syntax

IMG Integrated Microbial Genomes

INSDC Internatinal Nucleotide Sequence Database Collaboration

INSERM Institut National de la Santeacute et de la recherche meacutedicale

IRISA Institut de Recherche en Informatique et Systegravemes

Aleacuteatoires

JAXB Java Architecture for XML Binding

JAXP Java API for XML Processing

JDBC Java Database Connectivity

K2MDL K2 Mediator Definition Language

KEGG Kyoto Encyclopedia of Genes and Genomes

KOMF Khaos Ontology-based Mediation Framework

LAV Local As View

MCM Modegravele Conceptuel Multidimensionnel

MeSH Medical Subject Headings

MGD Mouse Genome Database

MGI Mouse Genome Informatics

MIPS Munich Information Center for Protein Sequences

MOLAP Multidimensionnal On Line Analytical Processing

NAR Nucleic Acids Research

NBRF National Biomedical Research Foundation

NCBI National Center for Biotechnology Information

15

NIH National Institutes of Health

NXD Native XML Database

OBO Open Biomedical Ontologies

ODL Object Definition Language

ODMG Object Data Management Group

OIL Ontology Inference Layer

OLAP On Line Analytical Processing

OLTP On Line Transactionnel Processing

OMG Object Management Group

OMIM Online Mendelian Inheritance in Man

OOLAP Object On-Line Analytical Processing

OQL Object Query Language

OWL Web Ontology Language

PDP Protein Data Bank

Pfam Protein Famili

PHP Hypertext Preprocessor

PIR Protein Identification Ressource

PPI Protein-Protein Interaction

PQL Program Query Language

PRODORIC PROcariotIC Database Of Gene-Regulation

QUIS Questionnaire for User Interface Satisfaction

RDF Resource Description Framework

RDFS Resource Description Framework Schema

ROLAP Relational On-Line Analytical Processing

SB-KOM System Biology Khaos Ontology-based Mediator

SEPT Source Entity Path Translator

SGBD Systegraveme de gestion de base de donneacutees

SGD Saccharomyces Genome Database

SKB Source Knowledge Base

SOAP Simple Object Access Protocol

SOFG Standards and Ontologies for Functional Genomics

SQL Structured Query Language

SRS Sequence Retrival System

SUS System Usability Scale

Tambis Transparent Access to Multiple Bioinformatic

InformationSources

TaO Tambis Ontology

16

UCL Universiteacute catholique de Louvain

UML Unified Modelling Language

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USA United States of America

W3C World Wide Web Consortium

WSDL Web Services Description Language

XML Extensible Markup Language

XSLT Extensible Stylesheet Language Transformations

ZFIN Zebrafish Information Network

17

NOTE AU LECTEUR

Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire

18

INTRODUCTION GENERALE

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute

19

Introduction geacute neacute raleacute

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au

domaineacute biologiqueacute

Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere

exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des

sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au

plus grand nombre ouvrant ainsi de belles perspectives en recherche

La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant

les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation

diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse

du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees

diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de

reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees

heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte

Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte

La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs

disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la

complexiteacute du monde vivant (Blagosklonny and Pardee 2002)

Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de

diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques

implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de

donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature

1 PROBLEMATIQUE ET MOTIVATION

Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les

laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute

20

des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de

donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel

Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats

La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas

envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la

documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de

consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter

les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers

plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML

(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les

langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery

(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont

parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur

Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui

avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun

(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes

incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige

lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees

enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par

le biais de formulaires Web ou par une connexion directe au SGBD

De nos jours la masse formidable de donneacutees produites par les centres de recherche

atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de

systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb

2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette

accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune

science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee

2005)

Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des

donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute

particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces

sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare

de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige

leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du

systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise

optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La

1 httpwwwncbinlmnihgovnuccore

2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-

mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

21

majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des

serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent

montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge

Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne

concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct

lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la

preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres

deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-

Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de

logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans

compensation financiegravere5

Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave

rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee

possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux

problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin

dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes

eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario

typique reacutesolu manuellement

Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les

voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee

laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe

le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo

Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape

consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees

Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu

dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par

exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees

KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations

fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue

qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous

auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible

nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave

geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens

hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml

4 httpwwwmysqlcom

5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes

6 httpwwwbrenda-enzymesinfo

7 httpwwwgenomejpkegg

22

paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que

GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes

dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que

tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention

humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne

pas dire inexistante

Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages

de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des

solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface

unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le

cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles

(architecture de meacutediation)

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les

donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des

hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J

and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque

base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace

physique occupeacute serait trop important tant par les donneacutees que la conservation de leur

traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de

fonctionnement du systegraveme

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

23

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans

certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de

transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees

2 CADRE ET BUTS DU TRAVAIL

Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il

srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions

moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux

drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur

apparition croissante dans la litteacuterature scientifique

Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette

masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles

connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet

comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le

Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis

quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer

lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte

drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double

Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces

donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une

proteacuteine donneacutee

Fournir une plateforme complegravete permettant drsquoorienter la recherche par

extraction de nouvelles connaissances

La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en

combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la

mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine

biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre

24

groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de

Malaga

La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees

biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets

drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-

organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees

PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les

enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki

scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la

communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations

relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans

PseudomonasDW

3 LES PSEUDOMONAS

31 Caracteres geacuteneacutereaux

Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al

2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes

Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec

comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le

nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles

sont oxygegravene (+)

Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes

comme source de carbone et drsquoeacutenergie

Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux

antibiotiques et aux antiseptiques

A) Morphologie et structure

Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La

mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour

les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en

deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture

25

B) Croissance et nutrition

De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la

tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes

La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont

capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de

carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les

auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats

carboneacutes utilisables comme source drsquoeacutenergie pour la croissance

C) Caractegraveres physiologiques

Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de

conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de

culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle

tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip

D) Habita

Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol

humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et

se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels

surtout srsquoils sont humides

E) Morphologie et caractegraveres culturaux

Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune

pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de

cette bacteacuterie

Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC

ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la

production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et

non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski

convient pour la culture

F) Aspects de colonies

Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut

ecirctre observeacutee

Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un

contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect

meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave

lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes

Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord

circulaire reacutegulier

26

Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces

colonies se rencontrent presque speacutecifiquement dans des infections chroniques

urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un

polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo

G) Production de pigments

Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification

Ils sont fluorescents ou non fluorescents

Pyoverdine

Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en

eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est

inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer

Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes

fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas

aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de

nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un

moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer

et de le transporte

Pyocyanine

Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la

seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves

drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en

milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la

chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na

Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches

sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des

malades traiteacutes aux antibiotiques

Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent

de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le

diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P

lemonieri P stutzeri et P mendocina

32 Pouvoir pathogegravene

Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme

pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et

27

cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle

peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle

comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par

lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave

certains antibiotiques courants

Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble

laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique

de mauvaises conditions de plantation une autre maladie des blessures un systegraveme

racinaire contraint ou asphyxieacute

Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme

agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de

Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux

eacutetudieacutee

33 Lutte biologique

De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de

biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la

biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par

des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol

ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches

mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour

deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les

performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres

bacteacuteries

Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute

microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les

genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement

sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui

colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent

particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique

Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de

population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient

sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres

rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des

exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave

isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-

A-Woeng et al 2001)

28

Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues

depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans

certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents

phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs

meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de

sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition

du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela

peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la

maladie

4 STRUCTURE DE DOCUMENT

Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les

diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une

description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources

Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions

majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et

montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de

la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques

des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)

qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de

donneacutees originales jusqursquoagrave PseudomonasDW

Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les

espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les

phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet

aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous

deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans

PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur

drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW

Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs

29

Preacutemieacute reacute Partieacute

30

CHAPITRE 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

31

Chapitre 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

Sommaire

1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38

33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41

43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42

44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43

1 INTRODUCTION

Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif

est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de

solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees

Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80

sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier

1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute

une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise

en place de systegravemes de stockage des donneacutees

32

En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de

seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute

ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos

(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees

relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration

entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest

eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour

proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui

accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques

Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere

sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource

(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve

degraves 1986

2 EacuteTAT DES SOURCES

Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web

eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases

Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus

importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and

Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de

1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu

le jour

On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les

dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de

ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre

source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le

Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)

quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne

leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont

vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces

agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute

stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute

8 httpwwwemboorg

9 httpwwwnihgov

10 httpwwwncbinlmnihgov

11 httpwwwddbjnigacjp

12 httpwwwncbinlmnihgovgeo

13 httpwwwebiacukarrayexpress

33

creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le

deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement

analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)

drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les

reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de

donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements

multiples

La sous-section suivante dresse un rapide panorama drsquoun certain nombre de

sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web

21 Varieacuteteacute des sources biologiques

Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La

classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave

lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees

qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)

classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes

(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de

donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des

travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources

suivantes

Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du

domaine meacutedical Medline16 PubMed17

Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en

existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les

seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank

(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui

contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits

les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de

donneacutees sont ArrayExpress (Europe) et GEO (USA)

Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees

disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement

chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par

14

httpblastncbinlmnihgovBlastcgi 15

httppfamsangeracuk 16

httpwwwmedlinecom 17

httpwwwncbinlmnihgovpubmed

34

un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou

GEOArrayExpress) dans un certain format Toute publication scientifique

soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de

puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification

GenBankEMBLDDBJ (respectivement GEOArrayExpress)

Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne

sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des

seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la

soumission

Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces

sources contiennent des informations nettoyeacutees (au moins automatiquement

comme la suppression de doublons) et parfois mecircme valideacutees manuellement par

des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires

est de partir de donneacutees issues des sources primaires pour proposer des

informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations

compleacutementaires

Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont

deux exemples de sources secondaires qui proposent de regrouper les fiches

GenBank La premiegravere propose une version non redondante de GenBank elle est

obtenue en utilisant des techniques de regroupement semi-automatiques alors que

la seconde construit de faccedilon automatique des clusters de seacutequences

Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement

du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun

ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un

ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans

lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les

reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de

publications et associeacutes agrave un pheacutenotype (une maladie) donneacute

Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources

au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage

(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes

automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils

bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources

18

httpwwwncbinlmnihgovRefSeq 19

httpwwwncbinlmnihgovunigene 20

httpwwwncbinlmnihgov 21

httpwwwomimorg 22

httpprodomprabifrprodomcurrenthtmlhomephp

35

sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des

reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees

Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees

sur une famille de fonctions biologiques Par exemple la source BRENDA

est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique

sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources

FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database

SGD24 (deacutedieacutee agrave la levure)

Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de

fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes

dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve

dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de

synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes

humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt

(Consortium 2010) GenBank)

22 Autonomie et capaciteacutes drsquointerrogation

La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement

autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait

libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent

souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en

faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles

reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source

pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude

du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit

prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution

afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci

lors de lrsquoexeacutecution des requecirctes

Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web

est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet

eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de

cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les

accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client

23

httpflybaseorg 24

httpwwwyeastgenomeorg 25

httpwwwgenecardsorg

36

FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par

exemple) ou plus reacutecemment encore via des appels de services Web Concernant les

interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui

suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces

qursquoil devra utiliser

Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent

tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas

lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont

disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent

soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il

nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la

puissance de calcul drsquoune source par une requecircte trop complexe

soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive

drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source

Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme

drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et

via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs

sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus

expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL

Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais

aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)

ou Fasta26 (Lipman and Pearson 1985)

Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs

repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation

ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les

proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre

automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de

faciliteacute en fonction de lrsquoapproche suivie

26

httpwwwebiacukToolssssfasta

37

3 DIFFICULTES RENCONTREES LORS DE

LrsquoINTERROGATION DES SOURCES

Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web

nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de

donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout

une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements

effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au

cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble

de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi

que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux

des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements

En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele

de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a

deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati

2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses

approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La

taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation

mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des

probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al

2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques

qui rendent leur interrogation complexe et fastidieuse

31 Diversiteacute syntaxique

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les

formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees

soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson

1985) soit du XML du HTML ou des SGBD relationnels ou objets

Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase

drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le

deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du

langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin

2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et

al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave

reacutesoudre

27

httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

38

32 Diversiteacute seacutemantique

Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui

sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus

Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une

entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine

qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene

codant pour chaque proteacuteine est alors vu comme un simple attribut Au

contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et

crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le

domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine

(dans PDB29)

Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee

nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par

exemple UniProt propose des informations sur des proteacuteines issues de

diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles

ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire

chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune

des proteacuteines de la levure

Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une

mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par

exemple selon les sources une proteacuteine est une isoforme particuliegravere

(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes

(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui

peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou

incluant les introns

La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais

qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des

modegraveles des formats et des scheacutemas diffeacuterents

Diversiteacute des informations au niveau des instances

Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son

expertise agrave travers une fiche Il peut arriver que selon les sources une

mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes

Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance

associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est

peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe

drsquoannotateurs Certains annotateurs emploieront le terme de putative 28

httpwwwebiacukinterpro 29

httpwwwrcsborgpdbhomehomedo

39

pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront

le terme hypothetical Drsquoautres encore ne preacuteciseront rien

Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent

plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme

proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les

sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait

plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes

diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas

en preacutesence drsquohomonymie

Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi

ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de

vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie

les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable

puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de

la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees

33 Diversiteacute des langages de requecircte

Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le

langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)

est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases

de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la

source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin

et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes

OQL sur leur scheacutema

34 Diversiteacute des services

Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees

(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave

une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers

ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre

lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par

exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des

heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de

30

httpwwwensemblorgindexhtml

40

donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences

nucleacuteotidiques comme BlastN)

4 ELEMENTS DE STANDARDISATION

Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute

proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms

des concepts sous-jacents aux donneacutees des sources et des noms des relations entre

ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre

experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le

second type de solution est plus geacuteneacuterique il comprend la construction de cadres de

repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que

lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de

concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de

solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees

contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees

41 Format standards et nomenclatures

Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de

terminologies standards pour deacutecrire les donneacutees

Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir

des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies

pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un

workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu

annuellement et regroupe les principaux acteurs sur cette probleacutematique

Le souci de standardisation de lrsquoattribution de noms est pris en compte par le

consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature

Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences

31

httpwwwgenenamesorg

41

42 Ontologies

Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de

faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la

construction de nombreuses ontologies

Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la

philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions

informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune

conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus

souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie

cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a

donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces

concepts

Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine

biologique

Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui

vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques

speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un

organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement

consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants

cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la

communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres

ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie

MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)

Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open

Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en

ligne dont voici un extrait

Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces

particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du

Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish

Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on

distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour

32

httpwwwgeneontologyorg 33

httpwwwobofoundryorg 34

httpwwwinformaticsjaxorg 35

httpzfinorg 36

httpwwwnlmnihgovresearchumls

42

les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject

Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine

Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al

2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39

(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un

dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave

lrsquoEBI41

Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et

al 1997) propose un format de donneacutees une nomenclature et un cadre XML

(RNA-ML) (Waugh et al 2002)

Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)

nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN

et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies

se preacutesentent sous la forme de graphes non cycliques

43 Meacutetadonneacutees

Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil

srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave

une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee

permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation

et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples

de meacutetadonneacutees

lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification

des commentaires exprimant un point de vue sur la ressource

le scheacutema des donneacutees les index associeacutes

des informations de qualiteacute relatives au scheacutema de la ressource

des informations statistiques sur les donneacutees

la speacutecification la signature drsquoun programme

37

httpwwwnlmnihgovmesh 38

httpecocycorg 39

httpmetacycorg 40

httpwwwebiacukchebi 41

httpwwwebiacuk 42

httphelix-webstanfordeduribowebhtml

43

Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute

proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la

description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere

geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la

description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements

(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en

cateacutegories

Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description

(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant

le contenu de la ressource titre sujet ou codes de classement description

source langue relation avec une autre ressource couverture spatiale et temporelle

la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation

la mateacuterialisation de la ressource cycle de vie type format identificateur

44 Langages et formalismes

Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont

deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont

XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du

W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de

donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre

explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou

des applications

Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun

document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en

particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la

grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux

formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document

Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee

en XML

Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les

eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt

43

httpdublincoreorg 44

httpwwww3org

44

De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois

des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique

drsquoeacuteleacutements agrave une structure en graphe

Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un

document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire

deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide

XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il

assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML

crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension

seacutemantique

RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C

pour la description des sources sur le Web Les descriptions se font en exprimant des

proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave

deacutefinir les termes et les relations qui interviennent dans ces descriptions

RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des

meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces

meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes

de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le

Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme

drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en

acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre

une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut

ecirctre reacutealiseacutee et faciliteacutee

Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces

concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des

ontologies

OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute

par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les

applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave

preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML

RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle

OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la

disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus

riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees

45

httpwwww3orgTRrdf-concepts 46

httpwwww3orgTRrdf-schema 47

httpwwww3orgTR2009WD-owl2-primer-20090611

45

OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL

OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une

hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou

taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des

constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux

tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes

de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de

restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes

mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique

de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider

au raisonnement sur une base de connaissances OWL Full permet un maximum

drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe

proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du

vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL

pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de

connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description

46

CHAPITRE 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

47

Chapitre 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47

2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50

23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53

32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70

4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86

1 INTRODUCTION

Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les

questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions

au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes

drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave

plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces

systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and

Kambhampati 2004)

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute

proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur

48

Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des

autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire

communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque

permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire

n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les

systegravemes (Sheth and Larson 1990)

Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune

base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les

applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement

directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)

Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration

drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes

sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont

accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des

sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de

requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources

disponibles

Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves

reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees

biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures

comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees

mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans

le mecircme temps

Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre

les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de

lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les

donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches

sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la

lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes

Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave

ecirctre exhaustifs

49

2 POINTS DE VARIATION ENTRE LES APPROCHES

DrsquoINTEGRATION

On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le

degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la

mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et

al 2004)

Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit

lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en

un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme

est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a

eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un

systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types

drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La

mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les

vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes

envoyeacutees au systegraveme

21 Degreacute drsquointeacutegration

Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement

appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere

approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema

inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche

agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources

de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une

transparence drsquointerface

211 Approche agrave couplage serreacute

Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de

lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul

emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema

peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit

conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des

requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme

drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas

50

des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des

deacutefinitions de regravegles (voir la sous-section 3213)

Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre

tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema

inteacutegrateur

212 Approche agrave couplage lacircche

Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du

systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter

lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les

utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre

accessibles pour des requecirctes

Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour

les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de

sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas

sont toujours visibles

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration

Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees

provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees

Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle

lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web

seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune

telle infrastructure

221 Modegravele de donneacutees du systegraveme drsquointeacutegration

Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le

modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un

scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les

donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas

drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour

acceacuteder aux sources de donneacutees

51

222 Types drsquointeacutegrations seacutemantique

Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas

drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres

systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants

Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun

point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique

comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les

communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration

verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati

2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la

communauteacute informatique)

Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une

correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme

drsquointeacutegration

Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la

preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux

drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche

drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier

des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique

ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire

le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees

seacutemantique

223 Approches ascendante et descendante

Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre

seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche

lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball

2002)

Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des

besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele

de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans

lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces

meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins

des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les

sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir

desquelles les donneacutees deacutecisionnelles sont extraites

52

Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les

donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle

construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-

automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour

deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode

considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la

source (List et al 2002)

23 Mateacuterialisation des reacutesultats

Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle

deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de

lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre

deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche

virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global

extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes

adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees

Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette

approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce

stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les

donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un

entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de

donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes

sources de donneacutees doit passer par des proceacutedures de mises agrave jour

24 Accegraves aux donneacutees

Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes

pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la

navigation speacutecialement dans les systegravemes baseacutees sur le Web

3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE

Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute

dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une

53

approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees

Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres

suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes

sources et combineacutees dans un scheacutema global

31 Approche non mateacuterialiseacutee

Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels

sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques

de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme

ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour

drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web

proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50

(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble

eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et

permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute

de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases

comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs

reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble

drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome

humain

Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types

drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees

biologiques le systegraveme meacutediateur et le systegraveme navigationnel

311 Le systegraveme meacutediateur

Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un

systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent

stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture

meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous

indiquerons dans cette section comment certaines approches meacutediateur sont directement

issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est

celle qui est la plus reacutepondue en informatique

48

httpwwwncbinlmnihgovsitesgquery 49

httpexpasyorg 50

httpsrsebiacuk

54

A) Deacutefinition et Architecture

Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose

une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes

pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et

homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes

Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est

central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un

vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit

une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche

lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de

faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de

lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont

calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver

une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique

logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte

poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions

des vues

Figure 1 Architecture dun systegraveme meacutediateur

55

Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme

drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans

leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui

lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon

distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via

des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en

terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source

B) Approches GAV LAV et GLAV

Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par

la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des

sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales

drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave

inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes

(GLAV) (Baader et al 2003)

Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour

lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave

inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont

deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette

approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance

Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du

scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de

donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit

que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee

par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois

deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources

de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se

ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement

effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de

nouvelles sources de donneacutees

La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est

geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources

ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels

que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le

scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par

51

Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes

56

exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute

ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global

Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications

consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T

a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)

Figure 2 Lapproche GAV (Global As View)

Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les

scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et

inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche

LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de

donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre

ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du

scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute

et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une

requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en

termes de vues est en effet bien plus complexe que dans une approche GAV Nous

renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle

Figure 3 Lapproche LAV (Loacl As View)

57

Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche

GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee

en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche

GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une

nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans

lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue

sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut

deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif

que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du

pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la

conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison

entre les trois approches

Figure 4 Approche GLAV

Table1 Comparaison des approches GAV LAV et GLAV

Approche Reacuteeacutecriture de requecircte mise-agrave-jour source

GAV facile difficile LAV difficile facile

GLAV difficile facile

C) Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix

des sources ce qui est autant plus important qursquoil a un grand nombre de sources

disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple

surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du

scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque

58

les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui

eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable

(2) Problegraveme rencontreacutes

Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les

donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune

source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes

Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les

reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au

niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement

supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se

fait directement au niveau des donneacutees centraliseacutees

Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur

sont

Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des

langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave

inteacutegrer et les requecirctes des utilisateurs

En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de

reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave

exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale

Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans

de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre

potentiellement redondantes Pour faire correspondre les instances entre elles il

faut suivre les techniques de lrsquoalignement (mappings en anglais)

D) Panorama des meacutediateurs existants en Bioinformatique

(1) K2Kleisli

Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute

deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave

avoir vu le jour en bioinformatique

Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus

expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection

Programming Language) (Hart et al 1994) En effet le langage CPL permet de

deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources

concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources

59

qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de

KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et

EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences

nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et

al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome

Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de

seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par

SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema

orienteacute objet

Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un

langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect

inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non

seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes

objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du

langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur

de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les

sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL

(2) TAMBIS

Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un

systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester

(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO

(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave

travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au

niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le

systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee

pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les

rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une

requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave

la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de

K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux

sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au

format HTML

TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec

OWL qui sont des langages plus expressifs

52

httpwwwncbinlmnihgovdbEST 53

httpgdbwwwgdborg

60

Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa

besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier

avec un langage de requecircte particulier

(3) DiscoveryLink

DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de

DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une

architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire

drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)

utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute

syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont

soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute

lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les

adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator

(Arenson 2003) mais fonctionne toujours selon le mecircme principe

(4) BACIIS

Le projet BACIIS (Biological And Chemical Information Integration System) est un

systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS

BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique

de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le

langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois

dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes

organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees

(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que

rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)

La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de

donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de

donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet

drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme

drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux

inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la

correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme

permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration

54

httpwwwalmadenibmcomcsgarlic

61

312 Le systegraveme navigationnel

Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche

drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris

Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet

de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave

construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques

sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes

sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont

transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle

permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les

sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte

peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations

A) Deacutefinition

Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes

mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec

des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires

telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins

et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)

Notons que compareacute au nombre important de sources de donneacutees actuellement

disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin

dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research

(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les

sources les plus importantes partagent des identifiants mais nombreuses sont celles plus

petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que

partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences

souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les

interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle

atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur

augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive

(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee

par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet

Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger

rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne

neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est

fait encore aujourdrsquohui manuellement

B) Exploitation des reacutefeacuterences croiseacutees

Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un

premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple

62

Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des

informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)

Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune

mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave

des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes

sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas

neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-

reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour

La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur

lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous

consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le

montre lrsquoexemple de la Figure 5

Figure 5 Exemple de partage de reacutefeacuterences entre les sources

Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans

lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero

drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en

gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)

Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les

mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la

reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct

55

httpwwwncbinlmnihgovomim 56

httpamigogeneontologyorgcgi-binamigogocgi

63

La Figure 6 illustre le graphe de liens existants entre les quatre sources pour

reacutepondre agrave la requecircte

Figure 6 Graphe de liens entre les sources

En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent

Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3

Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle

possegravede afin drsquointerroger Source1 et Source2

La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune

boucle apparaicirct dans le parcours des sources

Table 2 Les deux deacuteroulements possibles

Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date

Sceacutenario 1 Sceacutenario 2

Requecircte avec une date sur S1

Requecircte sur S2

Agrave partir de id2 tireacute de S1

Requecircte sur S3

Requecircte avec une date sur S3

Requecircte sur S1 et S2

A partir de id1 et id2 tireacutes de S3

64

Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs

chemins possible pour obtenir les donneacutees souhaiteacutees

Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur

simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure

apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de

la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire

La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle

nrsquoapporte aucune information suppleacutementaire

Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer

les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-

section suivante

C) Panorama des systegravemes navigationnels existants en Bioinformatique

Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de

plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour

le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins

traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont

eacutevalueacutes ces diffeacuterents chemins

(1) Le systegraveme SRS

SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par

lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and

Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par

LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques

de donneacutees (Zdobnov et al 2002)

SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme

drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de

description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And

Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est

drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les

donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index

sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche

drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un

entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees

Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en

mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et

57

httpwwwbiochipnetcomnode1561

65

donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et

beaucoup de banques speacutecialiseacutees

ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences

permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de

relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences

La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web

SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot

cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent

ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la

recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-

reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations

compleacutementaires contenues dans drsquoautres sources

Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques

pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des

sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une

mecircme requecircte

(2) Le systegraveme BioMediator

Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave

lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de

transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses

reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger

Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et

lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur

Le systegraveme BioMediator suit une conception modulaire composeacute de six composant

(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees

biologiques structureacutes et semi-structureacutees

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de

66

Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds

repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de

meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre

une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes

dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe

PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin

PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte

et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes

dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)

(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI

Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema

meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de

scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation

seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees

(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte

XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)

(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des

regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les

requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs

chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins

Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork

et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui

correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une

confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite

Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur

plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des

chemins possibles plutocirct qursquoune liste reacuteduite

(3) Le systegraveme BioNavigation

BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle

Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)

Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation

drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne

pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont

lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau

physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique

58

httpprotegestanfordedu 59

httpwwwxmlcompuba20030611qexohtml

67

ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces

entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)

Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes

entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la

construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les

citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute

lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo

BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une

requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur

des moyens pour eacutevaluer et optimiser les choix de chemins

Figure 8 Exemple de graphe dentiteacutes (Niveau logique)

Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction

du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps

drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and

Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour

reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs

paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans

BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et

sont classeacutes selon trois paramegravetres

68

La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un

chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)

ougrave e1 est une entreacutee de S1 et e2 de S2

La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale

Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution

locale et les deacutelais drsquoaccession aux sources

Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le

satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la

probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le

nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du

chemin le plus efficace en temps

(4) Le systegraveme BioGuide

Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche

navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des

utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet

BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils

bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus

drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine

biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils

et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces

graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y

seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type

de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et

des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous

la forme de chemins entre les sources Ces chemins sont construits en respectant les

preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix

Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la

preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins

geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute

drsquoutilisation

Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat

drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les

diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de

strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes

au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la

requecircte et iii) visitent une source donneacutee une seule fois

69

Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de

lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte

et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)

(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans

le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La

requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se

compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur

le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave

partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des

chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees

Figure 9 Architecture de BioGuide

Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler

ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de

strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou

les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide

ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand

nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees

divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)

70

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)

Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees

reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema

global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis

exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse

est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les

donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique

transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle

Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations

individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et

surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave

lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il

est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce

qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees

global

321 Deacutefinition et Architecture

A) Deacutefinition

Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit

lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non

volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest

pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se

caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)

Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes

Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet

et neacutecessaires aux besoins drsquoanalyse dans une structure unique

Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees

en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour

reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le

reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources

Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la

reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont

non volatile elles ne disparaissent pas apregraves les mises agrave jours

60

httpenwikipediaorgwikiBill_Inmon

71

Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont

permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct

consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent

Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les

valeurs particuliegraveres dans le temps

Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils

drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter

facilement les donneacutees

B) Architecture

Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en

deacutetaillant les diffeacuterentes couches qui le constituent

Figure 10 Architecture dun entrepocirct de donneacutees

Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et

heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data

Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes

depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line

Analytical Processing) (voir la sous-section 322)

Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)

syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend

les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la

hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees

fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-

72

Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui

repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations

concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur

structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct

Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes

vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)

lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux

structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees

inteacutegreacutees dans le systegraveme cible

Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et

une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant

logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape

drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans

un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de

donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme

logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees

neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par

source ou un middleware pour toutes les sources

73

Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees

Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave

effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct

de donneacutees Ce processus de transformation requiert la mise en correspondance

structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de

lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-

scheacutemas ou appariement de scheacutemas (schema matching)

Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent

du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est

interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de

scheacutema et de correspondance inter-scheacutemas

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute

S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et

G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents

types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un

eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison

drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs

(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles

(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel

74

Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes

qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les

critegraveres de classification suivants (Rahm and Bernstein 2001)

Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir

des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au

niveau du scheacutema

Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des

eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-

structures complexes de scheacutemas

Langage versus contrainte Les correspondances peuvent se baser sur des

approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute

de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)

Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la

relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre

scheacutema ceci menant agrave quatre cas 11 1n n1 nm

Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne

reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires

telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees

Il faut noter que certains algorithmes effectuent les correspondances en se basant

sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel

Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W

Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement

transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la

deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement

dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs

caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des

systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car

les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)

Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP

pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes

sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des

modifications freacutequentes et des volumes de donneacutees par transaction relativement faible

Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour

preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une

75

reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de

modification

Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont

qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est

reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes

sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser

une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de

grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus

complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas

correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux

de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est

entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil

contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de

chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de

lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une

alimentation reacutefleacutechie et planifieacutee dans le temps

324 Les modegraveles des entrepocircts de donneacutees

La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees

transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de

donneacutees repose sur un modegravele multidimensionnel de donneacutees

A) La modeacutelisation conceptuelle

La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association

(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)

en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de

nouvelles entiteacutes

De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave

comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation

E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute

(1) Concept de fait de dimension et de hieacuterarchie

Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse

des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que

lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur

fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction

tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees

76

en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62

Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors

qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble

drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs

Figure 13 Exemple de cube de donneacutees

Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les

attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une

dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes

relations drsquoordre entre ses attributs

Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois

dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps

Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la

proteacuteine

(2) Modegraveles en eacutetoile en flocon et en constellation

A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees

simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure

est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente

visuellement une eacutetoile on parle de modegravele en eacutetoile

61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres

correspondant aux formations faisant varier les mesures de lactiviteacute 62

Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63

Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail

77

Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce

scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions

autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute

eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions

Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la

modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la

modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de

dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et

al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions

Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au

sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la

normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball

2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des

dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend

plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema

augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte

Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en

trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en

quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo

Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui

utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs

faits et des dimensions communes (Benitez-Guerrero et al 2001)

B) La modeacutelisation logique

Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation

multidimensionnelle Il est possible dutiliser

un systegraveme de gestion de bases de donneacutees existant tels que les SGBD

relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)

un systegraveme de gestion de bases de donneacutees multidimensionnelles

(MOLAP)

Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de

bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line

Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere

suivante

Chaque fait correspond agrave une table appeleacute table de fait

Chaque dimension correspond agrave une table appeleacutee table de dimension

78

Figure 14 Modegravele en eacutetoile

Figure 15 modegravele en flocon

Figure 16 Modegravele en constellation

79

Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes

et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension

contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la

table de fait

Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de

lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel

se traduit ainsi

Chaque fait correspond agrave une classe appeleacutee classe de fait

Chaque dimension correspond agrave une classe appeleacutee classe de dimension

Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on

utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par

(Object Data Management Group) lrsquoODMG64

Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme

multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD

multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce

tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant

aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-

calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les

systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer

Les systegravemes MOLAP apparaissent comme une solution acceptable pour le

stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne

deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont

consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression

doivent ecirctre utiliseacutees

Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de

redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les

utiliseacutees sont

Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun

des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un

ensemble de faces diffeacuterents

Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune

dimension

Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune

repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble

64

wwwodmgorg

80

de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de

dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune

opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas

connu agrave lrsquoavance

C) La modeacutelisation de donneacutees XML multidimensionnelles

Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards

tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant

disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent

chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage

drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un

environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees

XML est de les convertir en donneacutees relationnelles Cependant mettre en place un

entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche

inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes

dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery

Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and

Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction

pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML

Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque

document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme

respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la

validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier

repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile

ou en flocons de neige

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing

81

La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave

lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel

multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute

en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette

approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur

leurs contenus

Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document

XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun

ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et

hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au

modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML

325 Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis

les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest

reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les

donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et

non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en

œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de

lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique

(Davidson et al 2001 Hernandez and Kambhampati 2004)

La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut

stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees

provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la

gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo

La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des

donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par

thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en

consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs

sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un

thegraveme

La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au

sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes

sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement

82

La transformation de donneacutees lors de lrsquointeacutegration Le processus de

transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de

reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration

verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce

processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de

reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema

La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles

localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees

provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte

(2) Problegravemes rencontreacutes

Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction

de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des

sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction

des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette

tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection

drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment

de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct

Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages

des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees

des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)

Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport

aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et

comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes

increacutementaux

Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car

les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations

ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches

drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique

A) GUS

Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand

entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS

est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les

maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux

proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support

pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et

83

lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour

stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative

2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al

2007)

Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts

(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et

annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de

nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et

dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il

possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat

drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des

donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS

chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de

regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale

B) GEDAW

Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees

deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des

eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de

Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse

des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees

dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves

disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de

GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches

biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees

inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie

GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees

structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology

UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de

correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme

instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent

ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences

renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)

ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est

incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut

lui aussi eacutemettre des regravegles de nettoyage des donneacutees

65

httpplasmodborgplasmo 66

httpwwwcbilupenneduepcondb42 67

httpwwwncbinlmnihgovprojectsSNP

84

Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les

scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-

mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de

deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de

transformer les structures des sources vers une forme canonique (le scheacutema global) Dans

le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour

identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres

pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des

informations

C) BioWarehouse

BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de

construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de

bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de

BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot

Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le

chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de

lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de

BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source

correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le

chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la

seacutemantique et du scheacutema global

Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un

fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des

donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations

drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas

freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation

drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir

de diffeacuterents modules

Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema

relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou

commerciales comme ORACLE

68

httpbiocycorg 69

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

85

D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques

biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene

UniProt GO InterPro KEGG et OMIM

Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema

global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic

Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les

donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales

que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source

comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le

systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le

reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu

dans le scheacutema GAM

GenMapper propose une interface conviviale de conception de requecircte ougrave

lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il

choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur

GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de

deacutepart

GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes

drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche

drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees

qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations

sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types

drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la

creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP

Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits

correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations

et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees

en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-

down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations

GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les

analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper

70

httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71

httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

86

est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees

sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare

4 DISCUSSION

Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la

recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes

drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee

Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les

donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les

rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle

au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix

en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32

fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans

un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les

donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs

propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees

inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche

permettant de lutter efficacement contre les donneacutees inconsistantes provenant de

diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands

volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la

conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes

drsquoanalyses ulteacuterieures

Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des

approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches

conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct

deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside

dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour

Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de

lrsquoaccessibiliteacute de ces sources externes

La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration

horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires

et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes

sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de

compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes

ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne

87

peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et

qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des

principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de

maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune

source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un

certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent

de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes

De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le

modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les

avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees

biologiques et avons dresseacute un panorama des solutions existantes en informatique en

montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques

88

Deacuteuxieacute meacute Partieacute

89

90

CHAPITRE 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp

91

Chapitre 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes

donneacute eacutes deacute Pseacuteudomonas sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91

2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101

31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101

32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102

33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107

34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113

36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117

5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123

1 INTRODUCTION

Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties

sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si

depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour

ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte

92

lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre

drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et

techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en

informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un

entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-

structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques

meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit

drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus

biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes

conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la

litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les

avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees

(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave

certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent

motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de

recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des

donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce

domaine font souvent appel agrave des traitements trop complexes pour tourner sur des

donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester

sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique

est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres

et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui

est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le

meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un

systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour

exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une

bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees

peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur

La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la

deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des

donneacutees

La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout

nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de

PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs

formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs

du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre

exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees

publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une

eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees

93

geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees

cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence

pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les

sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les

donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave

identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees

La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est

drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de

donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes

reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global

de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees

provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour

Respecter la fiabiliteacute de lrsquoinformation

Respecter la coheacuterence des informations une mecircme donneacutees pouvant

provenir de deux sources diffeacuterentes il faut alors choisir la plus

judicieuse

Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de

maniegravere unique une donneacutee

Unifier la repreacutesentation des donneacutees

Veacuterifier la non-redondance des informations

Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer

les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral

lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)

lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des

sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et

seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin

drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et

autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des

donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement

logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de

transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de

donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration

ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-

based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute

effectueacutee automatiquement en se basant sur quelques API (Application Programming

Interface) de java

94

2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW

Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est

un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de

lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees

inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies

Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema

inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et

meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui

nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)

Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un

environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de

construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation

souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave

lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans

les approches top-down les scheacutemas des sources importent peu pour la conception du

scheacutema global Ils seront seulement pris en compte dans un second temps quand les

correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour

permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema

global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne

connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir

PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-

up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema

telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus

drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les

donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en

assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La

combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples

permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus

cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements

cellulaire

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW

Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees

comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases

de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et

de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les

95

diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees

meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du

niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations

complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque

source de donneacutees sa provenance son contenu et sa structure

211 Bases de donneacutees geacutenomique et proteacuteique

PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du

gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une

collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de

donneacutees

GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee

comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont

publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al

2011) Cette base de donneacutees est produite au sein de NCBI (National Center for

Biotechnology Information) comme une partie de la collaboration internationale

des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal

Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs

reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de

380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre

des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines

avec la taxonomie le geacutenome le mappage la structure et les domaines

drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed

GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format

XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour

speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des

gegravenes et des seacutequences soumises

Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de

donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus

(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines

leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les

donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est

met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut

suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant

189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les

donneacutees en format HTML XML et Fasta

72

httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml

96

PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation

Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des

informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur

les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC

contient principalement des informations deacutetailleacutees sur les structures des opeacuterons

et des promoteurs y compris une eacutenorme collection des sites de liaisons et de

facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison

reacutegulateurs est disponible et une matrice du poids de position (position weight

matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la

litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave

plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du

serveur du PRODORIC par la technologie SOAP via le protocole HTTP en

utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit

eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux

utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs

propres programmes

212 Bases de donneacutees meacutetaboliques

KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme

humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est

consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique

(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux

moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les

informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de

donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions

(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus

respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers

chimique

Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies

(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus

cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du

SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui

facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique

Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure

drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes

(Kanehisa et al)

74

httpwwwprodoricde

97

213 Bases de donneacutees Enzymatique

PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees

enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la

collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles

agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme

une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et

deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique

de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites

directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en

biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des

programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est

veacuterifieacutee manuellement par au moins un biologiste et un chimiste

Le contenu de BRENDA couvre des informations sur la fonction la structure

loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des

donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et

lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que

laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des

caracteacuteristiques de la structure

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de

PseudmonasDW

Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont

plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la

litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction

drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative

Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-

hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave

aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on

parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)

que drsquoentrepocirct de donneacutees (ou data warehouse)

Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des

donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema

inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine

le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct

98

Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa

complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser

notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour

une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les

instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees

drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM

(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est

baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware

nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de

cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans

le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques

qui sont accessible via le web (Briache et al 2012)

Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de

donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment

impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de

lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de

lrsquoarchitecture du systegraveme

La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves

aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)

Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al

2003)

Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un

flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest

acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit

drsquoune technologie informatique intergicielle (comprendre middleware) permettant

drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une

autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees

dans les applications des transformateurs qui manipulent les donneacutees et des mises en

correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est

lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW

Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont

uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos

Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre

des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees

dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW

est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque

source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers

99

occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un

adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte

approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements

suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de

donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les

fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave

partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP

Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de

performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de

lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees

au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les

combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux

obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au

format HTML

Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par

lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation

qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees

Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des

services web Finalement le systegraveme transforme les donneacutees extraites en un format

commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser

une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le

scheacutema global par des regravegles de correspondances deacutefinies (mappings)

Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle

en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons

aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un

entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du

systegraveme est citeacute dans la section suivante

75

httpjenaapacheorg 76

httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77

httpexistsourceforgenet

100

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW

101

3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE

LrsquoENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans

cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de

plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)

le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees

drsquoorigine

En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon

deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les

donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par

SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme

un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration

seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du

PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source

et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement

agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une

description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW

31 Scheacutemas de source

La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW

constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude

deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour

deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons

creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont

consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les

sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes

102

de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale

sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA

32 Services de donneacutees

Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees

et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration

(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees

accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute

comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons

deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons

deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du

Web

Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs

en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent

ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation

de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au

protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des

103

applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un

modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et

srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un

service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de

meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les

services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes

et reacuteutilisables raquo

Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la

fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture

adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service

Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le

protocole Web raquo

321 Architecture du service de donneacutees dans PseudmonasDW

Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)

Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de

diffeacuterentes sources de donneacutees

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW

Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux

sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document

104

XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa

seacutemantique comme un service web La seacutemantique du service Web inclut des informations

sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans

le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de

donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de

service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application

Programming Interface)

LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois

meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document

XML La structure du ce document doit satisfait les contraintes du scheacutema de la source

Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux

meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema

XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur

la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)

Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux

diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant

geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au

service Web La partie importante de la classe Service est de tenir la correspondance entre

la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de

donneacutees Autrement dit la classe service est responsable de mettre des correspondances

entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees

322 Impleacutementation du service de donneacutees dans PseudmonasDW

Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache

Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter

le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous

les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le

fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du

service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute

webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service

78

httptomcatapacheorg 79

httpwsapacheorgaxisoverviewhtml

105

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web

La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier

deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des

proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement

ltservicegt (Figure 22)

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web

Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont

Lrsquoattribut name indique le nom du service web

Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute

pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider

106

Java RPC qui permet drsquoexposer une classe Java quelconque en tant que

service Web

Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements

ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes

Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la

classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le

chemin vers la classe java compileacutee associeacutee au service Web (nous referons

ici agrave la classe Service)

Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes

exposeacutees par le service Web La valeur speacuteciale indique que nous avons

exposeacutes toutes les meacutethodes du serveur Web

La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service

dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil

drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur

de deacuteploiement du service via la commande suivante

java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd

-httphostnameportnumberwebServiceFolderNameservicesAdminService

Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService

WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute

effectueacutee par la saisie de la direction lsquohttphostnameportnumber

webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis

drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement

107

33 Scheacutema Inteacutegrateur du PseudmonasDW

Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de

sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche

deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de

lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les

donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute

effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des

sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct

est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des

informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune

redondance au niveau du scheacutema inteacutegrateur

Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des

informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour

identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons

appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du

scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema

global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

laquo Le scheacutema global correspond agrave la description des relations entre toutes les

donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de

leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo

(King et al 2008)

En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la

deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel

modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre

exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW

Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la

reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

(Figure 24)

108

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW

Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un

scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une

interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une

ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema

conceptuel

Une ontologie de domaine est une laquo description intentionnelle de ce qui nous

connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des

concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine

de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre

domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses

caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une

terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure

lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts

Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees

par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui

modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel

simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui

repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les

proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie

109

peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la

cateacutegorie des concepts relieacutes aux sources de donneacutees

Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les

entiteacutes biologiques (par exemple les classes gene genome protein

enzymehellip)

Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes

reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple

le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans

lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de

donneacutees originales Ce type de concept a un rocircle tregraves important pour garder

les traces de donneacutees dans PseudmonasDW

Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de

proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les

individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype

properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de

PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes

des objets

Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au

niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les

eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des

objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees

Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur

drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation

speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code

pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate

(Roychoudhury et al 1992)

Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase

sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo

algU reacutegule le gegravene algD

Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes

abreacuteviations que leurs gegravenes

Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif

Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132

110

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)

A partir de cet exemple nous pouvons deacuteduire

Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo

Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux

concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo

Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts

lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo

pour le concept lsquoEnzymersquo

Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du

concept lsquoProteinrsquo

Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie

standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de

OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de

domaine qui preacutesente une simple hieacuterarchie des concepts

34 Correspondances seacutemantiques entre les scheacutemas

En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin

drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements

approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de

ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une

111

des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees

(Toumani et al 2007)

Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As

View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des

sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente

une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue

deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de

donneacutees

Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de

sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de

correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de

donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que

nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA

P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath

Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie

En geacuteneacuterale nous avons deacutefinie trois types de mappings

112

Mapping des Classes ce type de mappings deacutefinie des associations entre les

classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere

suivante

XPath-Element-Location Ontology-Class-Name correspondence-

index

Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement

du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo

repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie

lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine

la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave

100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de

mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema

du BRENDA

ResultEnzymeEnzyme100

ResultEnzymeFunctional_ParameterKMKM100

Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les

proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il

srsquoeacutecrie comme suit

XPath-Domain-Location XPath-value-Location Ontology-Domain-

Name Property-Name correspondence-index

Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du

scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment

lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son

rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent

respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la

proprieacuteteacute de type de donneacutees lsquohasValuersquo

ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional

_ParameterKMKM_ValueKMhasValue100

ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu

nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal

ue100

Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes

drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere

suivante

113

XPath-Domain-Location XPath-Range-Location Ontology-Domain-

Name Ontology-Range-Name Property-Name correspondence-index

Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo

deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la

proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo

et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau

de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet

Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee

au scheacutema de source

ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti

onal_ParameterhasFunctionalParameter100

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web

Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des

infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de

programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application

distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour

mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter

tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains

drsquoentre eux

Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par

le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration

de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est

baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic

Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de

base pour construire des applications de Web seacutemantique il est disponible en tant que

serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour

consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)

Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le

meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire

seacutemantique (Semantic Directory)

Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et

al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure

27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO

est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les

relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV

114

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core

Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum

des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique

Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents

types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core

Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware

pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)

getOntology( url) listOntologies() and listOntologies(concept)

Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies

enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les

impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les

correspondances (mappings) entre le scheacutema de cette ressource et les ontologies

enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux

utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(

serviceName url queryMethod schemaMethod))

Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface

drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies

Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux

diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos

services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a

permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre

disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et

115

solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de

deacutetail dans la section 36)

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM

36 SB-KOM System Biology Khaos Ontology-based Mediator

Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un

systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute

SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes

2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a

eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des

sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est

composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et

lrsquoeacutevaluateurinteacutegrateur

Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et

coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des

116

reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et

assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes

provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats

conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en

terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type

de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient

les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de

domaine

Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des

plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans

geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees

pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees

Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il

y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de

domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des

scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees

seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme

correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath

sont actives dans la proprieacuteteacute

Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte

conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de

concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres

Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous

1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux

groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats

ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux

arguments (les proprieacuteteacutes)

2 Construire GS un ensemble de combinaisons entre les deux groupes en se

basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave

cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes

3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les

mapping enregistreacutees au niveau de SD-Core

4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les

arguments preacutedicats

a La variable instancieacutee constitue le nœud racine

b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour

la variable instancieacutee et les eacuteleacutements qui ne contiennent que la

variable instancieacutee (sans les autres variables) seront passeacutes au nœud

courant et eacutelimineacutes de GS

117

c Les eacuteleacutements qui contiennent une autre variable en plus de celle

instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres

nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees

seront repreacutesenteacutes par drsquoautres variables qui seront des variables

instancieacutees

d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour

chaque nouvelle variable instancieacutee

LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de

requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes

dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de

lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans

lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees

souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit

des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant

les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de

services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie

des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de

domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de

requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations

inutiles

4 PROCESSUS ETL DANS PSEUDOMONASDW

Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer

comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus

drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise

par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive

suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct

Ans(PEOGPW)-

Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym

e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)

ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn

(PPW)

Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee

lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un

organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de

cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies

118

meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des

donneacutees sur le gegravene qui code pour elle

Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en

terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de

donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P

Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient

les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de

cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de

donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism

IsEnzyme CodedBy et ParticipateIn) (Figure 29)

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge

La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et

qui sont relieacutees aux

Organism par le biais de la relation ForOrganism

Pathway par la relation ParticipateIn

Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi

agrave la classe Organism par la relation ForOrganism

Gene par la relation CodedBy

Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une

fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au

planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la

119

requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique

lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan

drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un

ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les

preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et

appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par

la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par

le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes

possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3

A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire

des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables

instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux

variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave

exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave

lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut

pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend

Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe

agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la

proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils

deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees

lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations

ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus

lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend

au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees

120

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte

Groupe Sous-requecircte Service de Donneacutees

G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA

Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors

que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque

nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes

par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-

requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave

lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter

Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant

Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour

notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la

proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le

nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de

classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques

dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-

requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de

donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee

avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher

les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce

que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le

service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)

parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG

Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments

(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes

lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo

A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees

extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des

instances des scheacutemas XML des sources sous-jacentes Le composant

Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles

121

de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine

enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de

domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles

sont produites de services de donneacutees diffeacuterents Afin de les associer

lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au

niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de

domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant

EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat

obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees

extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est

automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java

(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-

db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees

XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de

donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW

122

Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL

(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees

souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les

services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la

transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les

instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer

dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La

derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a

permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif

(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein

de PseudmonasDW

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

123

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

5 DISCUSSION ET CONCLUSION

Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels

du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en

bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et

donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui

caracteacuterisent les donneacutees biologiques

Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et

analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon

doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus

quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont

pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques

caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique

De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus

complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de

processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute

La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie

par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel

environnement

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de

Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de

multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement

drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et

reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes

124

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes

Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour

extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs

forment une partie importante dans les services de donneacutees qui fournissent des moyens

pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de

donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une

interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les

donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM

Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous

somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui

offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De

cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance

(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema

inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de

domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts

et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de

lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement

aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees

dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques

bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration

seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs

avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement

stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre

part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le

meacutediateur

Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que

leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se

distingue des autres sur diffeacuterents points

125

Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une

diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de

connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique

et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des

donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de

GO

Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement

adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique

appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans

PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema

global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema

afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une

modification profonde du scheacutema

Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des

sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des

donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas

la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la

non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute

Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation

Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne

maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans

PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local

dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

126

CHAPITRE 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp

127

Chapitre 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes

Pseacuteudomonas Sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163

1 INTRODUCTION

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces

bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de

certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee

par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et

chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute

de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de

Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique

128

Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de

donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme

Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI

Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82

National Center for Biotechnology Information (NCBI) Microbial Genomes83

(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de

donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques

sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne

pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que

Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site

Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune

grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent

sur le suivi des changements des annotations et de permettre leur comparaison entre les

espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part

Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees

fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de

donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et

fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais

manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les

voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas

la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees

qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas

aeruginosa PAO1

Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le

chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui

regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece

de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour

une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase

de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les

acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique

aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de

PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires

concernant les espegraveces de Pseudomonas

80

httpimgjgidoegov 81

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82

httpwwwxbaseacuk 83

httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84

httpwwwmicrobesonlineorg 85

httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86

httpwwwpseudomonas-syringaeorg 87

httpwwwpseudomonascom

129

2 MODEacuteLISATION DE PSEUDOMONASDW

Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il

est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de

passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les

proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle

dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de

nombreux choix qui auront des reacutepercussions importantes dans la suite

La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux

drsquoabstraction diffeacuterents

Modegravele conceptuel repreacutesente le contenu de la base en termes

conceptuels indeacutependamment de toute consideacuteration informatique

Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un

scheacutema propre agrave un type de base de donneacutees

Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et

drsquoaccegraves aux donneacutees de la base

La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des

systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins

des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle

consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux

domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains

aspects des systegravemes physiques ou humains et de leur environnement

Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee

gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling

Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et

son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques

et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur

lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par

ce langage pour la conception de PseudomonasDW

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW

Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de

PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une

88

Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage

130

fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle

joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)

et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun

utilisateur exteacuterieur le voit

Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur

(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le

biologiste)

Table4 La liste des acteurs

Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via

lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies

par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit

Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en

introduisant son URL

Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des

mots cleacutes via son interface web

Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en

utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme

a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)

Table5 les cas drsquoutilisation de lrsquoutilisateur

Acteur Cas drsquoutilisation

Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet

PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web

Administrateur Le superviseur du systegraveme

Cas drsquoutilisation

Etablissement drsquoune connexion avec le systegraveme

Interrogation du systegraveme

Analyse de donneacutees

131

b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)

Figure 33 Le diagramme de cas dutilisation de lutilisateur

PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees

stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du

PseudomonasDW sont comme suit

Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par

lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du

systegraveme

Construction du reacutesultat

Translation du reacutesultat en un format lisible par lrsquoutilisateur

a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)

Table 6 les cas drsquoutilisation de PseudomonasDW

Cas drsquoutilisation

Translation de la requecircte

Construction du reacutesultat

Translation du reacutesultat

132

b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW

Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer

nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser

lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent

le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit

Inteacutegration de donneacutees au sein de PseudomonasDW

Nettoyage de donneacutees en eacuteliminant les redondances

Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de

donneacutees en fonction des sources originales

Maintenance de lrsquoentrepocirct de donneacutees

Maintenance de lrsquointerface Web

Ajout des fonctionnaliteacutes en cas de besoin

a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)

Table 7 les cas drsquoutilisation de lrsquoadministrateur

Cas drsquoutilisation

Inteacutegration de donneacutees

Nettoyage de donneacutees

Mise agrave jour de donneacutees

Maintenance de PseudomonasDW

Maintenance de lrsquointerface Web

Ajout de fonctionnaliteacutes

133

b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)

Figure 35 Le diagramme de cas dutilisation de ladministrateur

22 Diagrammes de seacutequence du systegraveme PseudomonasDW

Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets

selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects

dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes

sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute

drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du

Siemens Pattern Group (Buschmann et al 1996)

Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des

messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW

(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les

diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son

reacutecepteur

134

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur

Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de

PseudomonsDW

message eacutemetteur reacutecepteur

1 Demande de connexion Utilisateur Web app

2 Etablissement de connexion Web app Utilisateur

3 Envoi de requecircte via des formulaires HTML Utilisateur Web app

4 Reacuteception de requecircte Web app Web app

5 Geacuteneacuteration de requecircte XQuery Web app Web app

6 Envoi de la requecircte XQuery Web app PDW DB

7 Interrogation des indexes PDW DB PDW DB

8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB

9 Construction de reacutesultat XML PDW DB PDW DB

10 Transformation de reacutesultat de XML en XHTML PDW DB Web app

11 Affichage de reacutesultat en forma XHTML Web app Utilisateur

135

23 Diagramme de classes du systegraveme PseudomonasDW

Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la

modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les

composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des

eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations

Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les

diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de

la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir

les diffeacuterentes classes et relations composant notre diagramme de classe

Le diagramme de classe de PseudomonasDW est constitueacute de six classes

principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)

auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de

raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous

a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses

diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des

bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes

en trois sections la section supeacuterieure contient le nom de la classe la section centrale

deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les

diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation

qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui

sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de

composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base

3 IMPLEMENTATION DE PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese

est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de

Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les

applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources

multiples

Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre

diviseacutes en deux familles (Mahboubi et al 2009)

La premiegravere famille propose une modeacutelisation multidimensionnelle pour les

entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en

eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des

dimensions et offrent un support pour des outils danalyse

136

Les approches de la seconde famille abordent la probleacutematique de lentreposage de

documents XML Elles perccediloivent un entrepocirct XML comme une collection de

documents XML

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous

sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les

donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML

Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML

Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des

documents XML obtenus de la transformation des instances RDF au niveau de notre

entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons

donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases

de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees

XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)

31 Organisation des bases de donneacutees de PseudomonasDW

Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du

genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base

de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection

des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees

selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des

scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce

modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de

lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de

PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons

nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo

137

Figure 37 Le diagramme conceptuel de PseudomonasDW

138

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW

Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees

Genomes complets

Pseudomonas aeruginosa PAO1 6264404 5682 5556

Pseudomonas aeruginosa M18 6327754 5764 5684

Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269

Pseudomonas aeruginosa LESB58 6601757 6061 5908

Pseudomonas aeruginosa PA7 6588339 6369 6246

Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886

Pseudomonas fluorescens PfO-1 6438405 5829 5714

Pseudomonas fluorescens Pf-5 7074893 6233 6137

Pseudomonas fluorescens SBW25 6722539 6106 5921

Pseudomonas fluorescens F113 6845832 5953 5862

Pseudomonas putida F1 5959964 5403 5245

Pseudomonas putida GB-1 6078430 5529 5408

Pseudomonas putida KT2440 6181863 5516 5350

Pseudomonas putida W619 5774330 5309 5182

Pseudomonas putida BIRD-1 5731541 5046 4960

Pseudomonas putida S16 5984790 5307 5171

Pseudomonas syringae pvphaseolicola 6112448 5437 5172

Pseudomonas syringae pvtomato 6397126 5688 5481

Pseudomonas syringae pvsyringae 6093698 5220 5089

Pseudomonas stutzeri A1501 4567418 4210 4128

Pseudomonas stutzeri DSM 4166 4689946 4372 4301

Pseudomonas stutzeri ATCC 17588 4547930 4287 4181

Pseudomonas entomophila L48 5888780 5275 5134

Pseudomonas mendocina ymp 5072807 4704 4594

Pseudomonas mendocina NK-01 5434353 5035 4954

Pseudomonas brassicacearum NFM421 6843248 6176 6081

Pseudomonas fulva 12-X 4920769 4540 4459

Genomes incomplets

Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207

Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905

Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221

Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096

Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402

Pseudomonas chlororaphis - - 218

Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts

(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie

meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements

figureacutes directement apregraves lrsquoeacuteleacutement racine

Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur

organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees

correspondante

Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au

gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee

Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees

sous lrsquoeacuteleacutement laquoProteinDataraquo

139

Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans

PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte

deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes

Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les

diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans

lrsquoentreacutee

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1

32 Impleacutementation des bases de donneacutees de PseudomonasDW

En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees

sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML

deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la

version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome

qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute

Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des

servlets pour lrsquoaccegraves distant

89

httpjettycodehausorgjetty

140

La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de

charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents

XML dans 33 collections une collection pour chaque espegravece entreposeacute dans

PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre

application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery

Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de

fonctions de XQuery

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW

90

XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML

141

4 INTERFACE WEB DE PSEUDOMONASDW

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

41 Les Moteurs de rechercheacute dans PseudomonasDW

Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des

moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees

XML natives

Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les

pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur

quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute

qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de

recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de

recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas

parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu

laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ

speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-

down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la

proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave

minimiser le temps et la complexiteacute de la recherche

Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la

possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce

formulaire de recherche ou moteur de recherche propose des champs de recherche

multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de

Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein

Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons

aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs

espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la

possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees

Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant

de 1 agrave 33

142

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche

143

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute

144

Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue

nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave

quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de

donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML

et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues

HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a

eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et

convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de

PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans

quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis

Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML

Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta

Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3

42 Les entreacutees de Pseudomonas DW

Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq

sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la

section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont

listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune

section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de

PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee

dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails

des cinq sections

La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces

informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la

langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant

pour les proteacuteines et les ARN

La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en

question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom

scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les

diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la

seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de

transcriptions les sites de liaison et les sites de mutations ou de modification Cette section

offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du

gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A

partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage

145

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524

146

La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle

contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui

permet un affichage et une lecture tregraves simple Les informations de cette section sont

repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la

proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et

lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes

caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les

reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que

la seacutequence peptidique de la proteacuteine

La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine

deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission

numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees

enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions

catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats

et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des

informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des

informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des

paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo

La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans

lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement

propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de

donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)

lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie

meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique

preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les

composants et les modules de la voie meacutetabolique

Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les

entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou

lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo

deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas

(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis

Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la

proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la

retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la

proteacuteine dans des voies meacutetaboliques

147

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW

Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees

biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types

Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees

bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper

ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant

Ces outils doivent donc ecirctre

Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet

Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs

Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre

de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre

obligeacute de jongler avec diffeacuterentes sources dinformations

Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des

biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les

premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les

deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la

visualisation des annotations associeacutees Cette classification est toutefois quelque peu

scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de

donneacutees outils dinterrogation et outils de navigation sur le geacutenome

Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation

aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes

agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique

quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce

manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et

inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre

outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires

entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces

stockeacutees dans PseudomonasDW

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)

Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas

facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs

points forts et plusieurs faiblesses

91

DataBank browsers 92

Genome browsers

148

Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente

la meilleure application pour la geacutenomique comparative mais dautre part un autre

navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec

beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de

deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et

qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest

pas aussi riche que Ensembl

Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux

besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave

Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen

attentif

Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur

geacutenomique pour PseudomonasDW

Ensembl est toute une application libre de droit dauteur sur son code source

qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le

neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute

et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse

ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et

la deacutecouverte et la reacutesolution de bugs plus difficile

Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des

avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute

que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le

fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans

le site Web Or la plupart des bases et banques de donneacutees geacutenomiques

existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme

navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs

utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le

trouveront plus aiseacute agrave manipuler

Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur

geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des

geacutenomes en plus de la rapiditeacute qui est indispensable

Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs

geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux

autres navigateurs (Sen et al 2010)

93

httpgmodorgwikiGBrowse

149

511 GBrowse Vue geacuteneacuterale

GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui

correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de

donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord

speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des

subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut

national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License

(ou GPL)

GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation

graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres

eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives

comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave

ADN GBrowse propose les fonctionnaliteacutes suivantes

vue globale et vue deacutetailleacutee du geacutenome

deacutefilement zoom et centrage

utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien

personnaliseacutees

joindre une URL arbitraire agrave une annotation

ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur

final

recherche par ID annotation nom ou commentaire

connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95

support multi-langues

prise en charge des annotations agrave partir du format GFF96

persistance des paramegravetres de session agrave session

plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de

nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des

cartes de restriction eacutediter des fonctions)

512 Installation de GBrowse

Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous

avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite

lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons

eu besoin drsquoinstaller

94

httpwwwbiosqlorgwikiMain_Page 95

httpgmodorgwikiChado_-_Getting_Started 96

httpgmodorgwikiGFF

150

Apache Web Server97

Perl 598

Les modules de Perl suivants

o GCI

o GD

o DBI

o DBD mysql

o Digest MD5

o Text shellwords

Bioperl99

Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi

drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une

installation automatique de GBrowse

adminadmin~$ sudo apt-get install gbrowse gbrowse-calign

gbrowse-data

La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les

donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de

gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec

sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape

drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des

adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature

que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD

le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est

le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations

au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer

la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB

SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le

plus reacutecent des adaptateurs et le plus recommandeacute

513 Creacuteation et peuplement des bases de donneacutees MySQL

Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une

eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par

PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque

chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees

relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce

97

httphttpdapacheorg 98

httpdevperlorgperl5 99

httpwwwbioperlorgwikiMain_Page

151

contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la

banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos

besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers

GFF3

La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de

donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait

la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans

PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees

pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees

MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par

lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse

adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn

dbimysqlDB_Name --user root --password

varlibgbrowsedatabasesfilegff3

La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles

soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de

fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la

forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de

GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui

152

srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le

paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de

configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi

nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour

donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante

Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse

nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un

onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave

lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil

GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage

reacutesultante

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011

153

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW

521 Blast Vue geacuteneacuterale

Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences

(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une

seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme

dun package composeacute des programmes suivants

blastn blast nucleacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques

blastp blast proteacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

proteacuteiques

blastx blast nucleacuteique vs proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

proteacuteiques

tblastn blast proteacuteique vs nucleacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

nucleacuteiques

tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences

nucleacuteiques

Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse

comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir

teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une

base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme

lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle

base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA

Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais

son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct

de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees

proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute

une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette

application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de

le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web

154

522 La fonctionnaliteacute du Blast

Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les

seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la

page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de

PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans

PseudomonasDW

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW

La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la

possibiliteacute de PrimeblasterPrime ses seacutequences contre

Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences

(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences

agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees

comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le

choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la

partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses

extreacutemiteacutes

Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire

de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette

155

option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des

bases de donneacutees stockeacutees au niveau de PseudomonasDW

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW

156

Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java

lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en

extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le

sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs

drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi

deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement

une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui

sera retourneacutee agrave lrsquoutilisateur via son navigateur Web

Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral

Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme

de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une

petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine

lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes

seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession

dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les

scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en

deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage

drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement

obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple

drsquoalignement

157

Figure50 Exemple de reacutesultat de Blast

6 PDWiki

Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons

deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de

donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des

informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies

meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts

diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive

Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les

Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous

introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa

maniegravere drsquoaccegraves

158

61 Geacuteneacuteraliteacute sur les Wikis biologiques

Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat

sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web

sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre

simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun

navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est

maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des

donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis

biologiques (bio-wikis) comprennent

Le deacuteveloppement collaboratif et le partage des connaissances

Lrsquoannotation collaborative de contenus de bases de donneacutees

La creacuteation collaborative de contenus de bases de donneacutees

Le deacuteveloppement collaboratif et le partage de la documentation et des

connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un

consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des

nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de

conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont

geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de

recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets

biologiques speacutecialiseacutes

Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait

que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement

coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de

donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux

utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats

indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler

cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien

que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de

donneacutees elles-mecircmes restent inchangeacutees

La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans

les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de

donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement

deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums

et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite

100

httpwwwwikipediaorg

159

62 PDWiki Infrastructure et contenue

PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki

baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et

correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des

extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de

diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104

automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de

MediaWiki

MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de

nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen

des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une

bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de

MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le

principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des

bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de

lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La

classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees

de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe

lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo

est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure

geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec

PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle

elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo

PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de

PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le

premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations

suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour

chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de

plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas

limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et

lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus

La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee

correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans

PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le

101

httpwwwmediawikiorgwikiMediaWiki 102

httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103

httpwwwmediawikiorgwikiExtension_Matrix 104

httpenwikipediaorgwikiWikipediaBots 105

httpjwbfsourceforgenet

160

nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans

PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas

modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir

PseudmonasDW

La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle

appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece

Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page

speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations

suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom

de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au

moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo

La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque

espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page

lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est

conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW

Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les

utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par

lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils

peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces

informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les

interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie

de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les

sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies

meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs

peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des

reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les

activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier

les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des

informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents

composants dans la section lsquoPathwaysrsquo

Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources

dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et

contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee

161

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW

lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils

contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo

162

pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la

page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease

alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des

gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)

lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation

ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de

certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une

liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de

cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene

Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo

Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie

meacutetabolique apparaissant dans une page lsquoPDWEPrsquo

63 Comment naviguer dans PDWiki

Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la

recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des

pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur

163

gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct

sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est

de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de

recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les

pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au

sein de PDWiki en utilisant le formulaire de recherche

Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque

espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave

une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre

PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible

daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa

Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire

de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple

et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a

plusieurs avantages certains dentre eux sont

Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo

quand quelquun fait des modifications au niveau des pages de PDWiki

Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et

une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres

utilisateurs

Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages

qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106

7 DISCUSSION

Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes

modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm

2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves

Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de

Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans

cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base

de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des

bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire

agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur

lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les

plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de

106

httpwwwmediawikiorgwikiManualWatchlist

164

Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en

comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees

PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees

laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre

pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines

interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait

ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base

de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee

eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de

PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des

informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees

aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de

PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies

meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des

informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c

oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation

oxydative et la voie meacutetaboliques

Dautre part PseudomonasDW fournit des informations sur un ensemble plus

vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux

ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces

sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas

aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1

Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM

4166 et Pseudomonas chlororaphis

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

165

CONCLUSIONS ET PERSPECTIVES

166

Conclusions eacutet peacuterspeacutectiveacutes

Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante

bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3

comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon

rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur

mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile

et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P

syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain

Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des

infections pulmonaires mortelles chez les patients atteints de fibrose kystique

Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la

recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes

geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations

Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une

heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont

actuellement disponibles publiquement les types de donneacutees sont divers et les ressources

sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent

une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour

deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour

deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des

formats plus standard tels que XML (eg GenBank) A noter que les banques proposent

souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats

est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)

objet (eg Gus) ou semindashstructureacute (eg GenBank)

Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier

lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-

Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la

proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de

deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la

167

confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une

mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque

Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les

langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)

dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des

langages structureacutes tels que SQL (Genopage) ou OQL (Gus)

La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations

lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible

leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la

bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources

de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette

automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine

pour une recherche plus efficace des informations et une meilleure exploitation des

reacutesultats

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute

proposeacutees les approches navigationnel entrepocirct et meacutediateur

Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont

extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les

deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des

sources ce sont des portails et des meacutediateurs

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement

les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

168

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement

inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le

cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe

KHAOS de lrsquouniversiteacute de Malage

Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de

donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les

sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent

autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees

biologiques

Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des

sources de donneacutees biologiques et comportent une description des divers niveaux

drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des

solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme

navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine

entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une

inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine

biologique afin de proposer une solution drsquointeacutegration simple et flexible

Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre

des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin

drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee

1 REacuteSUMEacute DES CONTRIBUTIONS

Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne

fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur

exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se

sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent

169

principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que

possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers

et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos

travaux concernent plusieurs points

Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees

biologiques de Pseudomonas Sp

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas

requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de

donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi

proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees

heacuteteacuterogegravenes

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW

integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq

sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot

BRENDA et KEGG

Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les

donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie

importante dans les services de donneacutees qui fournissent des moyens pour interroger et

correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le

processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des

requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les

transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services

de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees

Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce

manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine

de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute

utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de

donneacutees un service pour une source de donneacutees

PseudomonasDW integravegre des sources de donneacutees offrant des informations

chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets

170

eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique

pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration

seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global

inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un

scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous

les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global

de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare

citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle

sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les

sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau

de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune

modification profonde

Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le

meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute

notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a

joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM

Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation

preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances

permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances

retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation

automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de

donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part

les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une

interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees

sont virtuellement acheveacutees en utilisant le meacutediateur

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

171

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune

installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave

certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige

une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse

surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la

plateforme Linux

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes

baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents

XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui

contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents

XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement

(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33

collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

172

Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques

pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons

incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il

affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des

gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est

un programme permettant de reacutealiser des alignements et des comparaisons locaux entre

deux seacutequences (nucleacuteiques ou proteacuteiques)

PseudomonasDW contient 170000 entreacutes et fournit des informations sur un

ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave

10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome

database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa

NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244

Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC

17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis

La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les

voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies

et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des

sections speacutecifiques pour les enzymes et les voies meacutetaboliques

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

2 OUVERTURE ET PISTES DE RECHERCHE

La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave

disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves

nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension

anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre

deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant

Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et

consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette

thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs

173

Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous

focalisant sur plusieurs points particuliers

Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW

Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance

accordeacutee agrave la source et sa qualiteacute estimeacutee

Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la

performance des donneacutees stockeacutees au niveau de PseudomonasDW

Automatiser la recherche de correspondance entre eacuteleacutements des

scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour

rendre lrsquoajout des nouvelles sources de donneacutees plus facile

Concernant lrsquointeacutegration des donneacutees

Inteacutegrer non seulement des sources de donneacutees mais aussi des services

Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres

anneacutees dans le domaine biologique et les perspectives offertes

semblent tregraves prometteuses

Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de

preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour

fouiller et comparer les donneacutees inteacutegreacutees

174

GLOSSAIRE

175

Glossaireacute

Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois

nucleacuteotides (codons) dans lrsquoARN

ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation

geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le

chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN

macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des

chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement

(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN

formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se

dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du

pheacutenomegravene de reacuteplication

Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions

hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus

complexe

Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences

codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation

syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les

entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit

les sources de donneacutees biologiques

API (Application Programming Interface) Interface pour langages de programmation

mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme

pour par exemple communiquer ou extraire des donneacutees

ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de

ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une

seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de

transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques

Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences

comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour

deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions

drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui

permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des

proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes

Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non

Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule

drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune

hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les

cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion

176

agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la

division cellulaire

Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros

serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et

unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture

est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees

Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte

deacutecisionnel deacutecentraliseacute

Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de

donneacutees exemple dimension temporelle dimension proteacuteique hellip

Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur

conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme

moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs

du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur

DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par

Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document

SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu

constitueacute par leurs sous-eacuteleacutements et leurs attributs

Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les

organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est

fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype

Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le

geacutenome nucleacuteaire

Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central

de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines

notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes

de reacutegulation

Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee

numeacuterique

FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et

William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le

programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines

Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et

porteur drsquoune information geacuteneacutetique

Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece

Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties

drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome

177

GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et

distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix

HTML (HyperText Markup Language) Langage de description de pages Web Un standard

initieacute par le W3C et compatible tous systegravemes

Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes

Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement

diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble

Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN

correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation

Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position

choisie)

Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme

drsquoun scheacutema de donneacutees

MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant

une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui

explique les performances Dans le second les jointures entre les tables de dimension et de fait sont

effectueacutees au moment de la requecircte

OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place

drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une

cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs

dimensions

Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin

OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de

lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant

Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave

linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le

deacuteclenchement de la transcription) et un ou plusieurs gegravenes

OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par

lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et

collections

Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports

baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration

systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau

(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de

maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec

celui-ci

178

Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique

(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique

notamment Un comportement particulier tout comme une combinaison de comportements

peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou

plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes

et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un

caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou

moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement

deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son

alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse

existe eacutegalement)

Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui

apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations

auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul

Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique

Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave

30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent

des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=

le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour

assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de

lrsquoinformation

Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une

comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un

support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou

ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees

compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus

ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit

syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le

type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et

quantifieacutes

Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser

les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le

principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave

CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot

contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN

tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-

repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du

meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De

maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment

correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de

caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents

dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des

suppresseurs de tumeurs

179

Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir

du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un

support meacutetallique et analyseacutees par spectromeacutetrie de masse

ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de

lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles

Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc

sous une forme plus deacutetailleacutee

Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe

concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine

informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des

informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux

neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies

Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides

amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN

(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage

drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit

fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes

Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie

par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides

(polymegraveres de nucleacuteotides)

Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet

indeacutependamment des plates-formes et des langages sur lesquelles elles reposent

SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels

permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du

domaine drsquoapplication

Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier

des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de

masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe

reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport

massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines

scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages

biologie meacutedecine

SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de

programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans

des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut

extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de

donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus

complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de

180

modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de

donneacutees et daccegraves

Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance

lrsquoidentification des formes vivantes et leur rangement dans une classification

Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome

URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur

uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant

lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour

adresser les ressources du World Wide Web telles que des documents HTML des images ou des

sons

Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet

Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct

et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux

ordinateurs et aux humains de travailler en plus eacutetroite collaboration

XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et

de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications

en diffeacuterents environnements hardware et software

Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements

dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un

sur-ensemble de XPath

181

ANNEXES

182

Anneacutexeacute 1 UML

La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996

UML est une norme de lOMG (Object Management Group) qui est un consortium des

principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive

homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune

seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants

UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent

ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre

UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des

systegravemes informatiques

Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur

Modegravele des classes capture la structure statique

Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages

Modegravele des eacutetats exprime le comportement dynamique des objets

Modegravele de deacuteploiement preacutecise la reacutepartition des processus

Modegravele de reacutealisation montre les uniteacutes de travail

Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant

correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de

diagrammes

Diagramme des classes structure statique il repreacutesente les classes

intervenant dans le systegraveme

Diagramme des eacutetatstransitions comportement dune classe en termes

deacutetats

Diagramme dobjets repreacutesentation des objets (des occurrences des

classes) et de leur relations ils correspondent agrave des diagrammes de

collaboration simplifieacutes (sans envoi de message)

183

Diagramme des paquetages un paquetage eacutetant un conteneur logique

permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le

Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages

crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions

Diagramme de structure composite permet de deacutecrire sous forme de

boicircte blanche les relations entre composants dune classe

Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs

interactions

Diagramme de communication repreacutesentation simplifieacutee dun diagramme

de seacutequence se concentrant sur les eacutechanges de messages entre les objets

Diagramme global dinteraction permet de deacutecrire les enchaicircnements

possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de

diagrammes de seacutequences

Diagramme de temps permet de deacutecrire les variations dune donneacutee au

cours du temps

Diagramme des cas dutilisation il permet didentifier les possibiliteacutes

dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les

fonctionnaliteacutes que doit fournir le systegraveme

Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration

en termes dactions

Diagramme de composants repreacutesentation des composants physiques

dune application

Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les

steacutereacuteotypes des classes ou des packages

Diagramme de deacuteploiement repreacutesentation du deacuteploiement des

composants sur les dispositifs mateacuteriels

184

Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes

Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la

premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de

Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute

dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant

devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une

deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante

Une base de donneacutees XML native deacutefinit un modegravele logique pour un document

XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au

minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du

document

Une base de donneacutees XML native gegravere le document XML comme une uniteacute

fondamentale de stockage comme une ligne dans une table relationnelle

Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent

particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique

orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers

compresseacutes indexeacutes

La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de

donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain

nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de

donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de

lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc

La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale

dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible

qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents

lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des

bases de donneacutees XML actuelles

La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas

important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de

185

donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest

pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait

envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees

XML native comme eXist lrsquoa fait agrave ses deacutebuts

Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement

pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les

transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des

langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc

parfaitement dans notre approche entiegraverement baseacutee sur XML

186

Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute

Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de

donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate

Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute

sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace

drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience

drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel

Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage

propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves

actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est

compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un

processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une

application

eXist fournit un stockage sans scheacutema des documents XML dans des collections

hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des

documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs

peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents

contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement

de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification

rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-

descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de

chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement

les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de

documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions

La base de donneacutees convient bien aux applications manipulant des petites ou larges

collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute

conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant

lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes

XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath

187

et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre

autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres

Architecture drsquoeXist

eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement

agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents

XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale

Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement

seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des

courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et

les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques

comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles

possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un

ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et

XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du

cœur drsquoeXist

eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut

fonctionner comme un processus serveur autonome fournissant des interfaces http et

XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles

peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut

fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-

RPC SOAP109 et WebDAV110 sont fournis par les servlets

Figure 53 Architecture deXist copy Wolfgang Meier

107

httpxmlrpcscriptingcomspechtml 108

httpxmldb-orgsourceforgenetxapixapi-drafthtml 109

httpwwww3org2000xpGroup 110

httpwwwietforgrfcrfc2518txt

188

BIBLIOGRAPHIE

189

Bibliographieacute

Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125

Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary

Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442

Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410

Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381

Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29

Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress

Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press

Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520

Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155

Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE

Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178

Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37

Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15

Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863

Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314

190

Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104

Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333

Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille

Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7

Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53

Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet

Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons

Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192

Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates

Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences

Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193

Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93

Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69

Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis

Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148

Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306

Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie

Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592

Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74

191

Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87

Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345

Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979

Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy

Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique

Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531

Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572

Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53

Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822

Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc

Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432

Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20

Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57

Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128

Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68

Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469

Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris

Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73

192

Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research

Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8

Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788

Gautier C (1981) Nucleic acid sequences handbook Praeger

Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523

Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance

Griffith A (2005) Java XML and the JAXP In Wiley (ed)

Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928

Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174

Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264

Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153

Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511

Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9

Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119

Harold ER and Means WS (2004) XML in a Nutshell OReilly Media

Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA

Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915

Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60

Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190

Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448

Hunter J (2003) X is for Query Oracle Magazine

Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York

Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)

193

Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541

Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology

Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)

Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30

Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357

Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280

Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59

Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169

Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley

Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337

Kimball R (2002) data warehouse toolkit

Kimball R (2003) The Bottom-Up Misnomer

King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18

Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper

Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web

Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597

Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283

Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138

Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni

Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170

194

Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268

Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441

List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215

MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA

Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562

Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144

Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348

Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105

Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381

Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378

Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755

McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)

McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587

Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34

Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376

Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477

Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537

Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall

Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65

195

Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269

Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga

Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622

Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230

Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2

Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846

Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125

Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350

Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163

Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171

Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)

Rehm B (2009) Pseudomonas Wiley-VCH

Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557

Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996

Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149

Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84

Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010

Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696

Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236

Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243

Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871

196

Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York

Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186

Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188

Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141

Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298

Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73

Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110

Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276

Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298

Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis

Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717

Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49

Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488

Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6

Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150

Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373

Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33

197

Reacute feacute reacutenceacutes Inteacuterneacutet

198

Reacute feacute reacutenceacutes Inteacuterneacutet

(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml

AmiGO httpamigogeneontologyorgcgi-binamigogocgi

Apache Server httphttpdapacheorg

ArrayExpress httpwwwebiacukarrayexpress

ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm

Axis httpwsapacheorgaxisoverviewhtml

BioCyc httpbiocycorg

BioGrid httpthebiogridorg

Bioperl httpwwwbioperlorgwikiMain_Page

biosql httpwwwbiosqlorgwikiMain_Page

Blast httpblastncbinlmnihgovBlastcgi

Bots httpenwikipediaorgwikiWikipediaBots

BRENDA httpwwwbrenda-enzymesinfo

Chado httpgmodorgwikiChado_-_Getting_Started

ChEBI httpwwwebiacukchebi

CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

core httpdublincoreorg

CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast

dbEST httpwwwncbinlmnihgovdbEST

dbSNP httpwwwncbinlmnihgovprojectsSNP

DDBJ httpwwwddbjnigacjp

Dublin Core httpdublincoreorg

EBI httpwwwebiacuk

EcoCyc httpecocycorg

EMBL httpwwwemblde

EMBO httpwwwemboorg

ensEMBL httpwwwensemblorgindexhtml

Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric

Entrez httpwwwncbinlmnihgovsitesgquery

EPConDB httpwwwcbilupenneduepcondb42

eXist httpexistsourceforgenet

199

ExPASy httpexpasyorg

ExPASy httpexpasyorg

Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix

FASTA httpwwwebiacukToolssssfasta

Flybase httpflybaseorg

Garlic httpwwwalmadenibmcomcsgarlic

Gbrowse httpgmodorgwikiGBrowse

GDB httpgdbwwwgdborg

Genbank httpwwwncbinlmnihgovnuccore

GeneCards httpwwwgenecardsorg

GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame

GEO httpwwwncbinlmnihgovgeo

GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

GFF httpgmodorgwikiGFF

GO httpwwwgeneontologyorg

HGNC httpwwwgenenamesorg

IMG httpimgjgidoegov

inmon httpenwikipediaorgwikiBill_Inmon

InterPro httpwwwebiacukinterpro

Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml

JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

jena httpjenaapacheorg

Jetty httpjettycodehausorgjetty

JWBF httpjwbfsourceforgenet

KEGG httpwwwgenomejpkegg

LION Bioscience AG httpwwwbiochipnetcomnode1561

MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings

Medline httpwwwmedlinecom

MeSH httpwwwnlmnihgovmesh

MetaCyc httpmetacycorg

MGI httpwwwinformaticsjaxorg

Microbes Online httpwwwmicrobesonlineorg

MIPS httpwwwhelmholtz-muenchendeenibis

MySQL httpwwwmysqlcom

NCBI httpwwwncbinlmnihgov

NIH httpwwwnihgov

OBO httpwwwobofoundryorg

ODMG wwwodmgorg

OMIM httpwwwomimorg

ORACLE httpwwworaclecomindexhtml

OWL httpwwww3orgTR2009WD-owl2-primer-20090611

PDB httpwwwrcsborgpdbhomehomedo

200

peer-review literature httpenwikipediaorgwikiPeer_review

perl httpdevperlorgperl5

Pfam httppfamsangeracuk

PhosphGrid httpwwwphosphogridorg

Plasmodb httpplasmodborgplasmo

ProDom httpprodomprabifrprodomcurrenthtmlhomephp

PRODORIC httpwwwprodoricde

Proteacutegeacute httpprotegestanfordedu

Pseudomonas Genome Database httpwwwpseudomonascom

Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg

PseudomonasDW httpwwwpseudomonasdwkhaosumaes

PubMed httpwwwncbinlmnihgovpubmed

Qexo httpwwwxmlcompuba20030611qexohtml

RDF httpwwww3orgTRrdf-concepts

RDFS httpwwww3orgTRrdf-schema

RefSeq httpwwwncbinlmnihgovRefSeq

RiboWeb httphelix-webstanfordeduribowebhtml

SGD database httpwwwyeastgenomeorg

SRS httpsrsebiacuk

Tomcat httptomcatapacheorg

UML httpwwwumlorg

UMLS httpwwwnlmnihgovresearchumls

UniGene httpwwwncbinlmnihgovunigene

UniProt httpwwwuniprotorg

W3C httpwwww3org

watchlist httpwwwmediawikiorgwikiManualWatchlist

WebDAV httpwwwietforgrfcrfc2518txt

Wikipedia httpwwwwikipediaorg

xBASE httpwwwxbaseacuk

XML httpwwww3schoolscomxml

XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml

XML-RPC httpxmlrpcscriptingcomspechtml

XML-RPC SOAP httpwwww3org2000xpGroup

ZFIN httpzfinorg

Page 2: UNIVERSITE ABDELMALEK ESSAADI - IMIST

Une approche hybride pour une inte gration se mantique des donne es

biologiques de Pseudomonas

Remerciement

1

Reacute sumeacute

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de

culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas

ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie

par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre

drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a

conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis

de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de

donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la

reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce

travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche

LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage

Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et

lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre

lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes

sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct

de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de

donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et

BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration

seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins

des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des

donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees

heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave

partir drsquoune seules source

Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride

PseudomonasDW

2

Reacutemeacutercieacutemeacutents

3

Reacutemeacutercieacutemeacutents

Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani

pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute

et aideacute tout au long de ses anneacutees de thegravese

Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-

encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de

recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches

Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger

mon travail

Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe

khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton

preacutecieux soutien

A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute

leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont

teacutemoigneacutes

Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec

une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton

encouragement

Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes

compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave

lrsquoavancement de ce travail

Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere

Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma

grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille

Briache

Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail

4

Sommaireacute

5

Sommaireacute

Introduction geacuteneacuterale 18

1 Problematique et motivation 19

2 CADRE ET BUTS DU TRAVAIL 23

3 Les pseudomonas 24

31 Caracteres geacuteneacutereaux 24

32 Pouvoir pathogegravene 26

33 Lutte biologique 27

4 Structure de document 28

Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

1 Introduction 31

2 Eacutetat des sources 32

21 Varieacuteteacute des sources biologiques 33

22 Autonomie et capaciteacutes drsquointerrogation 35

3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37

31 Diversiteacute syntaxique 37

32 Diversiteacute seacutemantique 38

33 Diversiteacute des langages de requecircte 39

34 Diversiteacute des services 39

4 Eleacutements de standardisation 40

41 Format standards et nomenclatures 40

42 Ontologies 41

43 Meacutetadonneacutees 42

44 Langages et formalismes 43

Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46

1 Introduction 47

2 points de variation entre les approches drsquointeacutegration 49

21 Degreacute drsquointeacutegration 49

211 Approche agrave couplage serreacute 49

6

212 Approche agrave couplage lacircche 50

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50

221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50

222 Types drsquointeacutegrations seacutemantique 51

223 Approches ascendante et descendante 51

23 Mateacuterialisation des reacutesultats 52

24 Accegraves aux donneacutees 52

3 approches drsquointeacutegration en bioinformatique 52

31 Approche non mateacuterialiseacutee 53

311 Le systegraveme meacutediateur 53

312 Le systegraveme navigationnel 61

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70

321 Deacutefinition et Architecture 70

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74

324 Les modegraveles des entrepocircts de donneacutees 75

325 Adeacutequation Problegravemes rencontreacutes 81

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82

4 Discussion 86

Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de

Pseudomonas sp 90

1 Introduction 91

2 Vue Global sur le systegraveme PseudomonasDW 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94

211 Bases de donneacutees geacutenomique et proteacuteique 95

212 Bases de donneacutees meacutetaboliques 96

213 Bases de donneacutees Enzymatique 97

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101

31 Scheacutemas de source 101

32 Services de donneacutees 102

321 Architecture du service de donneacutees dans PseudmonasDW 103

7

322 Impleacutementation du service de donneacutees dans PseudmonasDW 104

33 Scheacutema Inteacutegrateur du PseudmonasDW 107

34 Correspondances seacutemantiques entre les scheacutemas 110

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113

36 SB-KOM System Biology Khaos Ontology-based Mediator 115

4 Processus ETL dans Pseudomonasdw 117

5 Discussion et conclusion 123

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

126

1 Introduction 127

2 MODEacuteLISATION de PseudomonasDW 129

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129

22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133

23 Diagramme de classes du systegraveme PseudomonasDW 135

3 IMPLEMENTATION DE PSEUDOMONASDW 135

31 Organisation des bases de donneacutees de PseudomonasDW 136

32 Impleacutementation des bases de donneacutees de PseudomonasDW 139

4 INTERFACE WEB DE PSEUDOMONASDW 141

41 Les Moteurs de rechercheacute dans PseudomonasDW 141

42 Les entreacutees de Pseudomonas DW 144

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147

511 GBrowse Vue geacuteneacuterale 149

512 Installation de GBrowse 149

513 Creacuteation et peuplement des bases de donneacutees MySQL 150

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153

521 Blast Vue geacuteneacuterale 153

522 La fonctionnaliteacute du Blast 154

6 PDWiki 157

61 Geacuteneacuteraliteacute sur les Wikis biologiques 158

62 PDWiki Infrastructure et contenue 159

63 Comment naviguer dans PDWiki 162

8

7 DISCUSSION 163

Conclusions et perspectives 165

1 Reacutesumeacute des contributions 168

2 Ouverture et pistes de recherche 172

Glossaire 174

Annexes 181

Bibliographie 188

Reacutefeacuterences Internet 197

9

INDEX DES FIGURES ET DES TABLES

FIGURES

Figure 1 Architecture dun systegraveme meacutediateur 54

Figure 2 Lapproche GAV (Global As View) 56

Figure 3 Lapproche LAV (Loacl As View) 56

Figure 4 Approche GLAV 57

Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62

Figure 6 Graphe de liens entre les sources 63

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65

Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67

Figure 9 Architecture de BioGuide 69

Figure 10 Architecture dun entrepocirct de donneacutees 71

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de

donneacutees 73

Figure 13 Exemple de cube de donneacutees 76

Figure 14 Modegravele en eacutetoile 78

Figure 15 modegravele en flocon 78

Figure 16 Modegravele en constellation 78

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le

systegraveme PseudmonesDW 103

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108

10

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre

conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux

relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et

les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et

lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la

formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet

sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles

de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en

haut des eacuteleacutements de lontologie en rouge 118

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc

contient des informations pour acceacuteder aux services de donneacutees 119

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat

final de leacutetape ETL au sein de systegraveme PseudomonasDW 121

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction

de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de

chargement de donneacutees au sei de PseudmonasDW 122

Figure 33 Le diagramme de cas dutilisation de lutilisateur 131

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132

Figure 35 Le diagramme de cas dutilisation de ladministrateur 133

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134

Figure 37 Le diagramme conceptuel de PseudomonasDW 137

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A

gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW

A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas

aeruginosa PAO1 139

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees

au niveau de PseudomonasDW 140

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne

la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de

seacutelectionner un champ speacutecifique de recherche 142

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections

Organism et Gene de lentreacutee PAE00524 145

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154

11

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles

lutilisateur peut choisir 155

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences

indeacutependamment des bases de donneacutees de PseudomonasDW 155

Figure50 Exemple de reacutesultat de Blast 157

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir

et annoter lentreacutee PAE00524 de PseudomonasDW 161

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de

PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162

Figure 53 Architecture deXist copy Wolfgang Meier 187

TABLES

Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54

Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117

Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130

Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131

Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140

12

ABREVIATION

13

ABREVIATION

ADN Acide Deacutesoxyribonucleacuteique

API Application Programming Interface

ASN Abstract Syntax Notation

BACIIS Biological And Chemical Information Integration System

BioGRID Biological General Repository for Interaction Datasets

BLAST Basic Local Alignment Search Tool

CGH Comparative genomic hybridization

ChEBI Chemical Entities of Biological Interest

CMR Comprehensive Microbial Resource

CPAN Reacuteseau Complet drsquoArchives Perl

CPL Collection Programming Language

CSS Cascading Style Sheets

CSUQ Computer System Usability Questionnaire

CYGD Comprehensive Yeast Genome Database

DAML DARPA Agent Markup Language

dbEST Expressed Sequences Tags databases

DDBJ DNA Data Bank of Japan

DTD Document Type Definition

EBI European Bioinformatics Institute

EcoCyc Encyclopedia of Escherichia coli

EMBL European Molecular Biology Laboratory

EMBO European Molecular Biology Laboratory

EPG Entity Path Generator

ETL Extraction transformation and loading

ExPASy (Expert Protein Analysis System

FTP File Transfer Protocol

GAM Generic Annotation Management

GAV Global As View

GDB Human Genome Databases

GEDAW Gene Expression DAta Warehouse

GenMapper Genetic Mapper

GEO Gene Expression Omnibus

GeWare Gene Expression Warehouse

14

GFF General Feature Format

GIMS Genome Information Management System

GLAV Generalized Local As View

GMOD Generic Modele Organisme Database project

GNU GNUs Not UNIX

GO Gene Ontology

GPL General Public License

GRAIL GALEN Representation and Integration Language

GUS Genomics Unified Schema

HGNC Human Gene Organisation

HGP Human Genome Project

HGP Human Genome Project

HTML HyperText Markup Language

HTTP Hypertext Transfer Protocol

IBM International Business Machines

ICARUS Interpreter of Commands And Recursive Syntax

IMG Integrated Microbial Genomes

INSDC Internatinal Nucleotide Sequence Database Collaboration

INSERM Institut National de la Santeacute et de la recherche meacutedicale

IRISA Institut de Recherche en Informatique et Systegravemes

Aleacuteatoires

JAXB Java Architecture for XML Binding

JAXP Java API for XML Processing

JDBC Java Database Connectivity

K2MDL K2 Mediator Definition Language

KEGG Kyoto Encyclopedia of Genes and Genomes

KOMF Khaos Ontology-based Mediation Framework

LAV Local As View

MCM Modegravele Conceptuel Multidimensionnel

MeSH Medical Subject Headings

MGD Mouse Genome Database

MGI Mouse Genome Informatics

MIPS Munich Information Center for Protein Sequences

MOLAP Multidimensionnal On Line Analytical Processing

NAR Nucleic Acids Research

NBRF National Biomedical Research Foundation

NCBI National Center for Biotechnology Information

15

NIH National Institutes of Health

NXD Native XML Database

OBO Open Biomedical Ontologies

ODL Object Definition Language

ODMG Object Data Management Group

OIL Ontology Inference Layer

OLAP On Line Analytical Processing

OLTP On Line Transactionnel Processing

OMG Object Management Group

OMIM Online Mendelian Inheritance in Man

OOLAP Object On-Line Analytical Processing

OQL Object Query Language

OWL Web Ontology Language

PDP Protein Data Bank

Pfam Protein Famili

PHP Hypertext Preprocessor

PIR Protein Identification Ressource

PPI Protein-Protein Interaction

PQL Program Query Language

PRODORIC PROcariotIC Database Of Gene-Regulation

QUIS Questionnaire for User Interface Satisfaction

RDF Resource Description Framework

RDFS Resource Description Framework Schema

ROLAP Relational On-Line Analytical Processing

SB-KOM System Biology Khaos Ontology-based Mediator

SEPT Source Entity Path Translator

SGBD Systegraveme de gestion de base de donneacutees

SGD Saccharomyces Genome Database

SKB Source Knowledge Base

SOAP Simple Object Access Protocol

SOFG Standards and Ontologies for Functional Genomics

SQL Structured Query Language

SRS Sequence Retrival System

SUS System Usability Scale

Tambis Transparent Access to Multiple Bioinformatic

InformationSources

TaO Tambis Ontology

16

UCL Universiteacute catholique de Louvain

UML Unified Modelling Language

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USA United States of America

W3C World Wide Web Consortium

WSDL Web Services Description Language

XML Extensible Markup Language

XSLT Extensible Stylesheet Language Transformations

ZFIN Zebrafish Information Network

17

NOTE AU LECTEUR

Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire

18

INTRODUCTION GENERALE

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute

19

Introduction geacute neacute raleacute

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au

domaineacute biologiqueacute

Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere

exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des

sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au

plus grand nombre ouvrant ainsi de belles perspectives en recherche

La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant

les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation

diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse

du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees

diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de

reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees

heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte

Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte

La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs

disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la

complexiteacute du monde vivant (Blagosklonny and Pardee 2002)

Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de

diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques

implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de

donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature

1 PROBLEMATIQUE ET MOTIVATION

Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les

laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute

20

des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de

donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel

Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats

La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas

envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la

documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de

consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter

les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers

plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML

(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les

langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery

(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont

parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur

Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui

avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun

(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes

incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige

lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees

enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par

le biais de formulaires Web ou par une connexion directe au SGBD

De nos jours la masse formidable de donneacutees produites par les centres de recherche

atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de

systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb

2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette

accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune

science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee

2005)

Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des

donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute

particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces

sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare

de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige

leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du

systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise

optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La

1 httpwwwncbinlmnihgovnuccore

2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-

mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

21

majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des

serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent

montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge

Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne

concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct

lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la

preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres

deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-

Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de

logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans

compensation financiegravere5

Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave

rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee

possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux

problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin

dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes

eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario

typique reacutesolu manuellement

Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les

voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee

laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe

le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo

Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape

consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees

Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu

dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par

exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees

KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations

fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue

qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous

auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible

nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave

geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens

hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml

4 httpwwwmysqlcom

5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes

6 httpwwwbrenda-enzymesinfo

7 httpwwwgenomejpkegg

22

paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que

GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes

dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que

tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention

humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne

pas dire inexistante

Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages

de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des

solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface

unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le

cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles

(architecture de meacutediation)

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les

donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des

hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J

and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque

base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace

physique occupeacute serait trop important tant par les donneacutees que la conservation de leur

traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de

fonctionnement du systegraveme

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

23

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans

certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de

transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees

2 CADRE ET BUTS DU TRAVAIL

Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il

srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions

moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux

drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur

apparition croissante dans la litteacuterature scientifique

Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette

masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles

connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet

comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le

Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis

quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer

lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte

drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double

Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces

donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une

proteacuteine donneacutee

Fournir une plateforme complegravete permettant drsquoorienter la recherche par

extraction de nouvelles connaissances

La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en

combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la

mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine

biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre

24

groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de

Malaga

La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees

biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets

drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-

organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees

PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les

enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki

scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la

communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations

relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans

PseudomonasDW

3 LES PSEUDOMONAS

31 Caracteres geacuteneacutereaux

Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al

2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes

Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec

comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le

nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles

sont oxygegravene (+)

Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes

comme source de carbone et drsquoeacutenergie

Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux

antibiotiques et aux antiseptiques

A) Morphologie et structure

Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La

mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour

les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en

deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture

25

B) Croissance et nutrition

De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la

tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes

La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont

capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de

carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les

auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats

carboneacutes utilisables comme source drsquoeacutenergie pour la croissance

C) Caractegraveres physiologiques

Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de

conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de

culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle

tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip

D) Habita

Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol

humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et

se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels

surtout srsquoils sont humides

E) Morphologie et caractegraveres culturaux

Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune

pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de

cette bacteacuterie

Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC

ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la

production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et

non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski

convient pour la culture

F) Aspects de colonies

Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut

ecirctre observeacutee

Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un

contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect

meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave

lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes

Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord

circulaire reacutegulier

26

Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces

colonies se rencontrent presque speacutecifiquement dans des infections chroniques

urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un

polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo

G) Production de pigments

Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification

Ils sont fluorescents ou non fluorescents

Pyoverdine

Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en

eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est

inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer

Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes

fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas

aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de

nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un

moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer

et de le transporte

Pyocyanine

Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la

seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves

drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en

milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la

chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na

Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches

sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des

malades traiteacutes aux antibiotiques

Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent

de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le

diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P

lemonieri P stutzeri et P mendocina

32 Pouvoir pathogegravene

Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme

pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et

27

cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle

peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle

comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par

lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave

certains antibiotiques courants

Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble

laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique

de mauvaises conditions de plantation une autre maladie des blessures un systegraveme

racinaire contraint ou asphyxieacute

Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme

agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de

Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux

eacutetudieacutee

33 Lutte biologique

De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de

biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la

biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par

des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol

ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches

mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour

deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les

performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres

bacteacuteries

Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute

microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les

genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement

sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui

colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent

particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique

Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de

population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient

sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres

rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des

exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave

isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-

A-Woeng et al 2001)

28

Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues

depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans

certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents

phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs

meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de

sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition

du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela

peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la

maladie

4 STRUCTURE DE DOCUMENT

Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les

diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une

description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources

Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions

majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et

montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de

la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques

des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)

qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de

donneacutees originales jusqursquoagrave PseudomonasDW

Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les

espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les

phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet

aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous

deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans

PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur

drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW

Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs

29

Preacutemieacute reacute Partieacute

30

CHAPITRE 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

31

Chapitre 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

Sommaire

1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38

33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41

43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42

44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43

1 INTRODUCTION

Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif

est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de

solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees

Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80

sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier

1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute

une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise

en place de systegravemes de stockage des donneacutees

32

En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de

seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute

ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos

(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees

relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration

entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest

eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour

proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui

accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques

Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere

sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource

(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve

degraves 1986

2 EacuteTAT DES SOURCES

Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web

eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases

Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus

importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and

Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de

1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu

le jour

On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les

dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de

ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre

source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le

Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)

quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne

leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont

vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces

agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute

stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute

8 httpwwwemboorg

9 httpwwwnihgov

10 httpwwwncbinlmnihgov

11 httpwwwddbjnigacjp

12 httpwwwncbinlmnihgovgeo

13 httpwwwebiacukarrayexpress

33

creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le

deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement

analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)

drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les

reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de

donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements

multiples

La sous-section suivante dresse un rapide panorama drsquoun certain nombre de

sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web

21 Varieacuteteacute des sources biologiques

Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La

classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave

lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees

qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)

classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes

(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de

donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des

travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources

suivantes

Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du

domaine meacutedical Medline16 PubMed17

Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en

existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les

seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank

(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui

contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits

les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de

donneacutees sont ArrayExpress (Europe) et GEO (USA)

Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees

disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement

chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par

14

httpblastncbinlmnihgovBlastcgi 15

httppfamsangeracuk 16

httpwwwmedlinecom 17

httpwwwncbinlmnihgovpubmed

34

un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou

GEOArrayExpress) dans un certain format Toute publication scientifique

soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de

puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification

GenBankEMBLDDBJ (respectivement GEOArrayExpress)

Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne

sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des

seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la

soumission

Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces

sources contiennent des informations nettoyeacutees (au moins automatiquement

comme la suppression de doublons) et parfois mecircme valideacutees manuellement par

des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires

est de partir de donneacutees issues des sources primaires pour proposer des

informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations

compleacutementaires

Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont

deux exemples de sources secondaires qui proposent de regrouper les fiches

GenBank La premiegravere propose une version non redondante de GenBank elle est

obtenue en utilisant des techniques de regroupement semi-automatiques alors que

la seconde construit de faccedilon automatique des clusters de seacutequences

Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement

du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun

ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un

ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans

lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les

reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de

publications et associeacutes agrave un pheacutenotype (une maladie) donneacute

Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources

au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage

(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes

automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils

bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources

18

httpwwwncbinlmnihgovRefSeq 19

httpwwwncbinlmnihgovunigene 20

httpwwwncbinlmnihgov 21

httpwwwomimorg 22

httpprodomprabifrprodomcurrenthtmlhomephp

35

sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des

reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees

Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees

sur une famille de fonctions biologiques Par exemple la source BRENDA

est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique

sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources

FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database

SGD24 (deacutedieacutee agrave la levure)

Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de

fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes

dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve

dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de

synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes

humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt

(Consortium 2010) GenBank)

22 Autonomie et capaciteacutes drsquointerrogation

La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement

autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait

libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent

souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en

faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles

reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source

pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude

du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit

prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution

afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci

lors de lrsquoexeacutecution des requecirctes

Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web

est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet

eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de

cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les

accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client

23

httpflybaseorg 24

httpwwwyeastgenomeorg 25

httpwwwgenecardsorg

36

FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par

exemple) ou plus reacutecemment encore via des appels de services Web Concernant les

interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui

suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces

qursquoil devra utiliser

Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent

tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas

lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont

disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent

soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il

nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la

puissance de calcul drsquoune source par une requecircte trop complexe

soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive

drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source

Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme

drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et

via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs

sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus

expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL

Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais

aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)

ou Fasta26 (Lipman and Pearson 1985)

Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs

repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation

ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les

proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre

automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de

faciliteacute en fonction de lrsquoapproche suivie

26

httpwwwebiacukToolssssfasta

37

3 DIFFICULTES RENCONTREES LORS DE

LrsquoINTERROGATION DES SOURCES

Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web

nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de

donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout

une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements

effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au

cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble

de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi

que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux

des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements

En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele

de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a

deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati

2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses

approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La

taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation

mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des

probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al

2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques

qui rendent leur interrogation complexe et fastidieuse

31 Diversiteacute syntaxique

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les

formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees

soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson

1985) soit du XML du HTML ou des SGBD relationnels ou objets

Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase

drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le

deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du

langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin

2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et

al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave

reacutesoudre

27

httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

38

32 Diversiteacute seacutemantique

Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui

sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus

Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une

entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine

qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene

codant pour chaque proteacuteine est alors vu comme un simple attribut Au

contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et

crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le

domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine

(dans PDB29)

Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee

nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par

exemple UniProt propose des informations sur des proteacuteines issues de

diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles

ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire

chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune

des proteacuteines de la levure

Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une

mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par

exemple selon les sources une proteacuteine est une isoforme particuliegravere

(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes

(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui

peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou

incluant les introns

La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais

qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des

modegraveles des formats et des scheacutemas diffeacuterents

Diversiteacute des informations au niveau des instances

Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son

expertise agrave travers une fiche Il peut arriver que selon les sources une

mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes

Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance

associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est

peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe

drsquoannotateurs Certains annotateurs emploieront le terme de putative 28

httpwwwebiacukinterpro 29

httpwwwrcsborgpdbhomehomedo

39

pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront

le terme hypothetical Drsquoautres encore ne preacuteciseront rien

Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent

plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme

proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les

sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait

plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes

diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas

en preacutesence drsquohomonymie

Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi

ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de

vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie

les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable

puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de

la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees

33 Diversiteacute des langages de requecircte

Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le

langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)

est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases

de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la

source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin

et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes

OQL sur leur scheacutema

34 Diversiteacute des services

Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees

(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave

une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers

ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre

lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par

exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des

heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de

30

httpwwwensemblorgindexhtml

40

donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences

nucleacuteotidiques comme BlastN)

4 ELEMENTS DE STANDARDISATION

Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute

proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms

des concepts sous-jacents aux donneacutees des sources et des noms des relations entre

ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre

experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le

second type de solution est plus geacuteneacuterique il comprend la construction de cadres de

repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que

lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de

concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de

solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees

contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees

41 Format standards et nomenclatures

Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de

terminologies standards pour deacutecrire les donneacutees

Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir

des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies

pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un

workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu

annuellement et regroupe les principaux acteurs sur cette probleacutematique

Le souci de standardisation de lrsquoattribution de noms est pris en compte par le

consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature

Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences

31

httpwwwgenenamesorg

41

42 Ontologies

Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de

faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la

construction de nombreuses ontologies

Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la

philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions

informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune

conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus

souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie

cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a

donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces

concepts

Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine

biologique

Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui

vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques

speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un

organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement

consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants

cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la

communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres

ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie

MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)

Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open

Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en

ligne dont voici un extrait

Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces

particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du

Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish

Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on

distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour

32

httpwwwgeneontologyorg 33

httpwwwobofoundryorg 34

httpwwwinformaticsjaxorg 35

httpzfinorg 36

httpwwwnlmnihgovresearchumls

42

les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject

Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine

Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al

2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39

(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un

dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave

lrsquoEBI41

Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et

al 1997) propose un format de donneacutees une nomenclature et un cadre XML

(RNA-ML) (Waugh et al 2002)

Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)

nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN

et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies

se preacutesentent sous la forme de graphes non cycliques

43 Meacutetadonneacutees

Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil

srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave

une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee

permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation

et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples

de meacutetadonneacutees

lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification

des commentaires exprimant un point de vue sur la ressource

le scheacutema des donneacutees les index associeacutes

des informations de qualiteacute relatives au scheacutema de la ressource

des informations statistiques sur les donneacutees

la speacutecification la signature drsquoun programme

37

httpwwwnlmnihgovmesh 38

httpecocycorg 39

httpmetacycorg 40

httpwwwebiacukchebi 41

httpwwwebiacuk 42

httphelix-webstanfordeduribowebhtml

43

Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute

proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la

description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere

geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la

description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements

(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en

cateacutegories

Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description

(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant

le contenu de la ressource titre sujet ou codes de classement description

source langue relation avec une autre ressource couverture spatiale et temporelle

la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation

la mateacuterialisation de la ressource cycle de vie type format identificateur

44 Langages et formalismes

Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont

deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont

XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du

W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de

donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre

explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou

des applications

Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun

document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en

particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la

grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux

formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document

Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee

en XML

Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les

eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt

43

httpdublincoreorg 44

httpwwww3org

44

De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois

des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique

drsquoeacuteleacutements agrave une structure en graphe

Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un

document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire

deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide

XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il

assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML

crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension

seacutemantique

RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C

pour la description des sources sur le Web Les descriptions se font en exprimant des

proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave

deacutefinir les termes et les relations qui interviennent dans ces descriptions

RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des

meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces

meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes

de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le

Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme

drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en

acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre

une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut

ecirctre reacutealiseacutee et faciliteacutee

Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces

concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des

ontologies

OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute

par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les

applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave

preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML

RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle

OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la

disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus

riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees

45

httpwwww3orgTRrdf-concepts 46

httpwwww3orgTRrdf-schema 47

httpwwww3orgTR2009WD-owl2-primer-20090611

45

OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL

OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une

hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou

taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des

constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux

tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes

de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de

restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes

mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique

de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider

au raisonnement sur une base de connaissances OWL Full permet un maximum

drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe

proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du

vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL

pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de

connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description

46

CHAPITRE 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

47

Chapitre 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47

2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50

23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53

32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70

4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86

1 INTRODUCTION

Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les

questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions

au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes

drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave

plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces

systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and

Kambhampati 2004)

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute

proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur

48

Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des

autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire

communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque

permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire

n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les

systegravemes (Sheth and Larson 1990)

Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune

base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les

applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement

directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)

Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration

drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes

sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont

accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des

sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de

requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources

disponibles

Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves

reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees

biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures

comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees

mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans

le mecircme temps

Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre

les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de

lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les

donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches

sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la

lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes

Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave

ecirctre exhaustifs

49

2 POINTS DE VARIATION ENTRE LES APPROCHES

DrsquoINTEGRATION

On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le

degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la

mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et

al 2004)

Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit

lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en

un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme

est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a

eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un

systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types

drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La

mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les

vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes

envoyeacutees au systegraveme

21 Degreacute drsquointeacutegration

Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement

appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere

approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema

inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche

agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources

de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une

transparence drsquointerface

211 Approche agrave couplage serreacute

Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de

lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul

emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema

peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit

conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des

requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme

drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas

50

des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des

deacutefinitions de regravegles (voir la sous-section 3213)

Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre

tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema

inteacutegrateur

212 Approche agrave couplage lacircche

Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du

systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter

lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les

utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre

accessibles pour des requecirctes

Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour

les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de

sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas

sont toujours visibles

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration

Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees

provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees

Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle

lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web

seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune

telle infrastructure

221 Modegravele de donneacutees du systegraveme drsquointeacutegration

Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le

modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un

scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les

donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas

drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour

acceacuteder aux sources de donneacutees

51

222 Types drsquointeacutegrations seacutemantique

Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas

drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres

systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants

Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun

point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique

comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les

communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration

verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati

2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la

communauteacute informatique)

Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une

correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme

drsquointeacutegration

Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la

preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux

drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche

drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier

des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique

ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire

le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees

seacutemantique

223 Approches ascendante et descendante

Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre

seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche

lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball

2002)

Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des

besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele

de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans

lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces

meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins

des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les

sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir

desquelles les donneacutees deacutecisionnelles sont extraites

52

Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les

donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle

construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-

automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour

deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode

considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la

source (List et al 2002)

23 Mateacuterialisation des reacutesultats

Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle

deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de

lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre

deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche

virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global

extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes

adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees

Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette

approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce

stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les

donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un

entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de

donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes

sources de donneacutees doit passer par des proceacutedures de mises agrave jour

24 Accegraves aux donneacutees

Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes

pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la

navigation speacutecialement dans les systegravemes baseacutees sur le Web

3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE

Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute

dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une

53

approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees

Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres

suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes

sources et combineacutees dans un scheacutema global

31 Approche non mateacuterialiseacutee

Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels

sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques

de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme

ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour

drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web

proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50

(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble

eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et

permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute

de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases

comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs

reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble

drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome

humain

Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types

drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees

biologiques le systegraveme meacutediateur et le systegraveme navigationnel

311 Le systegraveme meacutediateur

Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un

systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent

stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture

meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous

indiquerons dans cette section comment certaines approches meacutediateur sont directement

issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est

celle qui est la plus reacutepondue en informatique

48

httpwwwncbinlmnihgovsitesgquery 49

httpexpasyorg 50

httpsrsebiacuk

54

A) Deacutefinition et Architecture

Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose

une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes

pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et

homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes

Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est

central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un

vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit

une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche

lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de

faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de

lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont

calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver

une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique

logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte

poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions

des vues

Figure 1 Architecture dun systegraveme meacutediateur

55

Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme

drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans

leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui

lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon

distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via

des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en

terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source

B) Approches GAV LAV et GLAV

Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par

la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des

sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales

drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave

inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes

(GLAV) (Baader et al 2003)

Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour

lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave

inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont

deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette

approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance

Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du

scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de

donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit

que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee

par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois

deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources

de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se

ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement

effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de

nouvelles sources de donneacutees

La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est

geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources

ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels

que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le

scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par

51

Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes

56

exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute

ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global

Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications

consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T

a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)

Figure 2 Lapproche GAV (Global As View)

Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les

scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et

inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche

LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de

donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre

ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du

scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute

et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une

requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en

termes de vues est en effet bien plus complexe que dans une approche GAV Nous

renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle

Figure 3 Lapproche LAV (Loacl As View)

57

Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche

GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee

en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche

GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une

nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans

lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue

sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut

deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif

que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du

pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la

conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison

entre les trois approches

Figure 4 Approche GLAV

Table1 Comparaison des approches GAV LAV et GLAV

Approche Reacuteeacutecriture de requecircte mise-agrave-jour source

GAV facile difficile LAV difficile facile

GLAV difficile facile

C) Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix

des sources ce qui est autant plus important qursquoil a un grand nombre de sources

disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple

surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du

scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque

58

les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui

eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable

(2) Problegraveme rencontreacutes

Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les

donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune

source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes

Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les

reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au

niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement

supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se

fait directement au niveau des donneacutees centraliseacutees

Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur

sont

Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des

langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave

inteacutegrer et les requecirctes des utilisateurs

En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de

reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave

exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale

Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans

de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre

potentiellement redondantes Pour faire correspondre les instances entre elles il

faut suivre les techniques de lrsquoalignement (mappings en anglais)

D) Panorama des meacutediateurs existants en Bioinformatique

(1) K2Kleisli

Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute

deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave

avoir vu le jour en bioinformatique

Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus

expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection

Programming Language) (Hart et al 1994) En effet le langage CPL permet de

deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources

concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources

59

qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de

KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et

EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences

nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et

al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome

Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de

seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par

SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema

orienteacute objet

Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un

langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect

inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non

seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes

objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du

langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur

de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les

sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL

(2) TAMBIS

Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un

systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester

(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO

(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave

travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au

niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le

systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee

pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les

rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une

requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave

la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de

K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux

sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au

format HTML

TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec

OWL qui sont des langages plus expressifs

52

httpwwwncbinlmnihgovdbEST 53

httpgdbwwwgdborg

60

Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa

besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier

avec un langage de requecircte particulier

(3) DiscoveryLink

DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de

DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une

architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire

drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)

utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute

syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont

soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute

lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les

adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator

(Arenson 2003) mais fonctionne toujours selon le mecircme principe

(4) BACIIS

Le projet BACIIS (Biological And Chemical Information Integration System) est un

systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS

BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique

de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le

langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois

dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes

organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees

(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que

rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)

La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de

donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de

donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet

drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme

drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux

inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la

correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme

permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration

54

httpwwwalmadenibmcomcsgarlic

61

312 Le systegraveme navigationnel

Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche

drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris

Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet

de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave

construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques

sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes

sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont

transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle

permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les

sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte

peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations

A) Deacutefinition

Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes

mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec

des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires

telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins

et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)

Notons que compareacute au nombre important de sources de donneacutees actuellement

disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin

dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research

(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les

sources les plus importantes partagent des identifiants mais nombreuses sont celles plus

petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que

partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences

souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les

interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle

atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur

augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive

(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee

par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet

Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger

rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne

neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est

fait encore aujourdrsquohui manuellement

B) Exploitation des reacutefeacuterences croiseacutees

Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un

premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple

62

Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des

informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)

Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune

mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave

des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes

sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas

neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-

reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour

La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur

lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous

consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le

montre lrsquoexemple de la Figure 5

Figure 5 Exemple de partage de reacutefeacuterences entre les sources

Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans

lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero

drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en

gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)

Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les

mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la

reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct

55

httpwwwncbinlmnihgovomim 56

httpamigogeneontologyorgcgi-binamigogocgi

63

La Figure 6 illustre le graphe de liens existants entre les quatre sources pour

reacutepondre agrave la requecircte

Figure 6 Graphe de liens entre les sources

En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent

Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3

Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle

possegravede afin drsquointerroger Source1 et Source2

La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune

boucle apparaicirct dans le parcours des sources

Table 2 Les deux deacuteroulements possibles

Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date

Sceacutenario 1 Sceacutenario 2

Requecircte avec une date sur S1

Requecircte sur S2

Agrave partir de id2 tireacute de S1

Requecircte sur S3

Requecircte avec une date sur S3

Requecircte sur S1 et S2

A partir de id1 et id2 tireacutes de S3

64

Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs

chemins possible pour obtenir les donneacutees souhaiteacutees

Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur

simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure

apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de

la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire

La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle

nrsquoapporte aucune information suppleacutementaire

Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer

les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-

section suivante

C) Panorama des systegravemes navigationnels existants en Bioinformatique

Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de

plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour

le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins

traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont

eacutevalueacutes ces diffeacuterents chemins

(1) Le systegraveme SRS

SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par

lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and

Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par

LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques

de donneacutees (Zdobnov et al 2002)

SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme

drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de

description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And

Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est

drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les

donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index

sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche

drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un

entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees

Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en

mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et

57

httpwwwbiochipnetcomnode1561

65

donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et

beaucoup de banques speacutecialiseacutees

ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences

permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de

relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences

La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web

SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot

cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent

ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la

recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-

reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations

compleacutementaires contenues dans drsquoautres sources

Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques

pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des

sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une

mecircme requecircte

(2) Le systegraveme BioMediator

Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave

lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de

transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses

reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger

Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et

lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur

Le systegraveme BioMediator suit une conception modulaire composeacute de six composant

(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees

biologiques structureacutes et semi-structureacutees

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de

66

Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds

repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de

meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre

une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes

dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe

PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin

PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte

et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes

dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)

(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI

Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema

meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de

scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation

seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees

(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte

XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)

(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des

regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les

requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs

chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins

Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork

et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui

correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une

confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite

Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur

plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des

chemins possibles plutocirct qursquoune liste reacuteduite

(3) Le systegraveme BioNavigation

BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle

Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)

Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation

drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne

pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont

lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau

physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique

58

httpprotegestanfordedu 59

httpwwwxmlcompuba20030611qexohtml

67

ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces

entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)

Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes

entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la

construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les

citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute

lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo

BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une

requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur

des moyens pour eacutevaluer et optimiser les choix de chemins

Figure 8 Exemple de graphe dentiteacutes (Niveau logique)

Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction

du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps

drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and

Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour

reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs

paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans

BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et

sont classeacutes selon trois paramegravetres

68

La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un

chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)

ougrave e1 est une entreacutee de S1 et e2 de S2

La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale

Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution

locale et les deacutelais drsquoaccession aux sources

Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le

satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la

probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le

nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du

chemin le plus efficace en temps

(4) Le systegraveme BioGuide

Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche

navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des

utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet

BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils

bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus

drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine

biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils

et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces

graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y

seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type

de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et

des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous

la forme de chemins entre les sources Ces chemins sont construits en respectant les

preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix

Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la

preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins

geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute

drsquoutilisation

Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat

drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les

diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de

strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes

au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la

requecircte et iii) visitent une source donneacutee une seule fois

69

Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de

lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte

et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)

(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans

le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La

requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se

compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur

le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave

partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des

chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees

Figure 9 Architecture de BioGuide

Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler

ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de

strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou

les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide

ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand

nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees

divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)

70

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)

Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees

reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema

global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis

exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse

est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les

donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique

transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle

Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations

individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et

surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave

lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il

est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce

qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees

global

321 Deacutefinition et Architecture

A) Deacutefinition

Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit

lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non

volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest

pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se

caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)

Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes

Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet

et neacutecessaires aux besoins drsquoanalyse dans une structure unique

Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees

en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour

reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le

reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources

Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la

reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont

non volatile elles ne disparaissent pas apregraves les mises agrave jours

60

httpenwikipediaorgwikiBill_Inmon

71

Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont

permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct

consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent

Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les

valeurs particuliegraveres dans le temps

Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils

drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter

facilement les donneacutees

B) Architecture

Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en

deacutetaillant les diffeacuterentes couches qui le constituent

Figure 10 Architecture dun entrepocirct de donneacutees

Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et

heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data

Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes

depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line

Analytical Processing) (voir la sous-section 322)

Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)

syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend

les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la

hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees

fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-

72

Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui

repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations

concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur

structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct

Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes

vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)

lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux

structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees

inteacutegreacutees dans le systegraveme cible

Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et

une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant

logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape

drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans

un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de

donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme

logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees

neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par

source ou un middleware pour toutes les sources

73

Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees

Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave

effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct

de donneacutees Ce processus de transformation requiert la mise en correspondance

structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de

lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-

scheacutemas ou appariement de scheacutemas (schema matching)

Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent

du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est

interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de

scheacutema et de correspondance inter-scheacutemas

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute

S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et

G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents

types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un

eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison

drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs

(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles

(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel

74

Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes

qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les

critegraveres de classification suivants (Rahm and Bernstein 2001)

Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir

des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au

niveau du scheacutema

Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des

eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-

structures complexes de scheacutemas

Langage versus contrainte Les correspondances peuvent se baser sur des

approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute

de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)

Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la

relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre

scheacutema ceci menant agrave quatre cas 11 1n n1 nm

Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne

reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires

telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees

Il faut noter que certains algorithmes effectuent les correspondances en se basant

sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel

Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W

Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement

transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la

deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement

dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs

caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des

systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car

les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)

Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP

pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes

sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des

modifications freacutequentes et des volumes de donneacutees par transaction relativement faible

Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour

preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une

75

reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de

modification

Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont

qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est

reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes

sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser

une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de

grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus

complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas

correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux

de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est

entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil

contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de

chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de

lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une

alimentation reacutefleacutechie et planifieacutee dans le temps

324 Les modegraveles des entrepocircts de donneacutees

La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees

transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de

donneacutees repose sur un modegravele multidimensionnel de donneacutees

A) La modeacutelisation conceptuelle

La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association

(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)

en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de

nouvelles entiteacutes

De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave

comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation

E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute

(1) Concept de fait de dimension et de hieacuterarchie

Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse

des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que

lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur

fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction

tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees

76

en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62

Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors

qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble

drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs

Figure 13 Exemple de cube de donneacutees

Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les

attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une

dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes

relations drsquoordre entre ses attributs

Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois

dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps

Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la

proteacuteine

(2) Modegraveles en eacutetoile en flocon et en constellation

A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees

simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure

est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente

visuellement une eacutetoile on parle de modegravele en eacutetoile

61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres

correspondant aux formations faisant varier les mesures de lactiviteacute 62

Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63

Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail

77

Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce

scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions

autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute

eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions

Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la

modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la

modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de

dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et

al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions

Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au

sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la

normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball

2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des

dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend

plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema

augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte

Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en

trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en

quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo

Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui

utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs

faits et des dimensions communes (Benitez-Guerrero et al 2001)

B) La modeacutelisation logique

Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation

multidimensionnelle Il est possible dutiliser

un systegraveme de gestion de bases de donneacutees existant tels que les SGBD

relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)

un systegraveme de gestion de bases de donneacutees multidimensionnelles

(MOLAP)

Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de

bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line

Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere

suivante

Chaque fait correspond agrave une table appeleacute table de fait

Chaque dimension correspond agrave une table appeleacutee table de dimension

78

Figure 14 Modegravele en eacutetoile

Figure 15 modegravele en flocon

Figure 16 Modegravele en constellation

79

Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes

et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension

contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la

table de fait

Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de

lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel

se traduit ainsi

Chaque fait correspond agrave une classe appeleacutee classe de fait

Chaque dimension correspond agrave une classe appeleacutee classe de dimension

Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on

utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par

(Object Data Management Group) lrsquoODMG64

Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme

multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD

multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce

tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant

aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-

calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les

systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer

Les systegravemes MOLAP apparaissent comme une solution acceptable pour le

stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne

deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont

consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression

doivent ecirctre utiliseacutees

Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de

redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les

utiliseacutees sont

Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun

des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un

ensemble de faces diffeacuterents

Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune

dimension

Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune

repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble

64

wwwodmgorg

80

de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de

dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune

opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas

connu agrave lrsquoavance

C) La modeacutelisation de donneacutees XML multidimensionnelles

Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards

tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant

disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent

chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage

drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un

environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees

XML est de les convertir en donneacutees relationnelles Cependant mettre en place un

entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche

inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes

dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery

Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and

Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction

pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML

Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque

document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme

respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la

validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier

repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile

ou en flocons de neige

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing

81

La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave

lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel

multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute

en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette

approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur

leurs contenus

Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document

XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun

ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et

hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au

modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML

325 Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis

les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest

reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les

donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et

non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en

œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de

lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique

(Davidson et al 2001 Hernandez and Kambhampati 2004)

La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut

stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees

provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la

gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo

La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des

donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par

thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en

consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs

sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un

thegraveme

La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au

sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes

sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement

82

La transformation de donneacutees lors de lrsquointeacutegration Le processus de

transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de

reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration

verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce

processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de

reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema

La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles

localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees

provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte

(2) Problegravemes rencontreacutes

Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction

de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des

sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction

des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette

tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection

drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment

de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct

Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages

des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees

des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)

Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport

aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et

comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes

increacutementaux

Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car

les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations

ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches

drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique

A) GUS

Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand

entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS

est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les

maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux

proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support

pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et

83

lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour

stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative

2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al

2007)

Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts

(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et

annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de

nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et

dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il

possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat

drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des

donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS

chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de

regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale

B) GEDAW

Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees

deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des

eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de

Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse

des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees

dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves

disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de

GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches

biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees

inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie

GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees

structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology

UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de

correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme

instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent

ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences

renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)

ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est

incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut

lui aussi eacutemettre des regravegles de nettoyage des donneacutees

65

httpplasmodborgplasmo 66

httpwwwcbilupenneduepcondb42 67

httpwwwncbinlmnihgovprojectsSNP

84

Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les

scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-

mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de

deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de

transformer les structures des sources vers une forme canonique (le scheacutema global) Dans

le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour

identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres

pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des

informations

C) BioWarehouse

BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de

construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de

bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de

BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot

Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le

chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de

lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de

BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source

correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le

chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la

seacutemantique et du scheacutema global

Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un

fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des

donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations

drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas

freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation

drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir

de diffeacuterents modules

Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema

relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou

commerciales comme ORACLE

68

httpbiocycorg 69

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

85

D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques

biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene

UniProt GO InterPro KEGG et OMIM

Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema

global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic

Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les

donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales

que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source

comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le

systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le

reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu

dans le scheacutema GAM

GenMapper propose une interface conviviale de conception de requecircte ougrave

lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il

choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur

GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de

deacutepart

GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes

drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche

drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees

qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations

sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types

drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la

creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP

Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits

correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations

et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees

en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-

down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations

GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les

analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper

70

httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71

httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

86

est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees

sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare

4 DISCUSSION

Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la

recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes

drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee

Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les

donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les

rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle

au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix

en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32

fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans

un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les

donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs

propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees

inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche

permettant de lutter efficacement contre les donneacutees inconsistantes provenant de

diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands

volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la

conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes

drsquoanalyses ulteacuterieures

Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des

approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches

conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct

deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside

dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour

Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de

lrsquoaccessibiliteacute de ces sources externes

La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration

horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires

et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes

sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de

compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes

ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne

87

peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et

qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des

principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de

maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune

source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un

certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent

de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes

De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le

modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les

avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees

biologiques et avons dresseacute un panorama des solutions existantes en informatique en

montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques

88

Deacuteuxieacute meacute Partieacute

89

90

CHAPITRE 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp

91

Chapitre 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes

donneacute eacutes deacute Pseacuteudomonas sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91

2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101

31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101

32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102

33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107

34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113

36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117

5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123

1 INTRODUCTION

Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties

sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si

depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour

ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte

92

lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre

drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et

techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en

informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un

entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-

structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques

meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit

drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus

biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes

conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la

litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les

avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees

(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave

certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent

motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de

recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des

donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce

domaine font souvent appel agrave des traitements trop complexes pour tourner sur des

donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester

sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique

est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres

et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui

est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le

meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un

systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour

exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une

bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees

peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur

La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la

deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des

donneacutees

La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout

nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de

PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs

formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs

du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre

exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees

publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une

eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees

93

geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees

cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence

pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les

sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les

donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave

identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees

La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est

drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de

donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes

reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global

de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees

provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour

Respecter la fiabiliteacute de lrsquoinformation

Respecter la coheacuterence des informations une mecircme donneacutees pouvant

provenir de deux sources diffeacuterentes il faut alors choisir la plus

judicieuse

Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de

maniegravere unique une donneacutee

Unifier la repreacutesentation des donneacutees

Veacuterifier la non-redondance des informations

Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer

les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral

lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)

lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des

sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et

seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin

drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et

autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des

donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement

logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de

transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de

donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration

ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-

based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute

effectueacutee automatiquement en se basant sur quelques API (Application Programming

Interface) de java

94

2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW

Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est

un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de

lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees

inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies

Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema

inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et

meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui

nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)

Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un

environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de

construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation

souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave

lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans

les approches top-down les scheacutemas des sources importent peu pour la conception du

scheacutema global Ils seront seulement pris en compte dans un second temps quand les

correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour

permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema

global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne

connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir

PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-

up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema

telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus

drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les

donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en

assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La

combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples

permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus

cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements

cellulaire

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW

Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees

comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases

de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et

de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les

95

diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees

meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du

niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations

complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque

source de donneacutees sa provenance son contenu et sa structure

211 Bases de donneacutees geacutenomique et proteacuteique

PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du

gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une

collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de

donneacutees

GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee

comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont

publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al

2011) Cette base de donneacutees est produite au sein de NCBI (National Center for

Biotechnology Information) comme une partie de la collaboration internationale

des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal

Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs

reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de

380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre

des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines

avec la taxonomie le geacutenome le mappage la structure et les domaines

drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed

GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format

XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour

speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des

gegravenes et des seacutequences soumises

Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de

donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus

(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines

leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les

donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est

met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut

suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant

189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les

donneacutees en format HTML XML et Fasta

72

httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml

96

PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation

Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des

informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur

les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC

contient principalement des informations deacutetailleacutees sur les structures des opeacuterons

et des promoteurs y compris une eacutenorme collection des sites de liaisons et de

facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison

reacutegulateurs est disponible et une matrice du poids de position (position weight

matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la

litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave

plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du

serveur du PRODORIC par la technologie SOAP via le protocole HTTP en

utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit

eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux

utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs

propres programmes

212 Bases de donneacutees meacutetaboliques

KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme

humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est

consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique

(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux

moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les

informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de

donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions

(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus

respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers

chimique

Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies

(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus

cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du

SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui

facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique

Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure

drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes

(Kanehisa et al)

74

httpwwwprodoricde

97

213 Bases de donneacutees Enzymatique

PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees

enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la

collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles

agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme

une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et

deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique

de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites

directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en

biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des

programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est

veacuterifieacutee manuellement par au moins un biologiste et un chimiste

Le contenu de BRENDA couvre des informations sur la fonction la structure

loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des

donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et

lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que

laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des

caracteacuteristiques de la structure

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de

PseudmonasDW

Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont

plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la

litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction

drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative

Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-

hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave

aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on

parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)

que drsquoentrepocirct de donneacutees (ou data warehouse)

Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des

donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema

inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine

le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct

98

Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa

complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser

notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour

une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les

instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees

drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM

(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est

baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware

nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de

cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans

le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques

qui sont accessible via le web (Briache et al 2012)

Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de

donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment

impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de

lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de

lrsquoarchitecture du systegraveme

La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves

aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)

Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al

2003)

Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un

flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest

acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit

drsquoune technologie informatique intergicielle (comprendre middleware) permettant

drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une

autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees

dans les applications des transformateurs qui manipulent les donneacutees et des mises en

correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est

lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW

Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont

uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos

Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre

des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees

dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW

est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque

source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers

99

occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un

adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte

approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements

suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de

donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les

fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave

partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP

Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de

performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de

lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees

au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les

combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux

obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au

format HTML

Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par

lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation

qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees

Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des

services web Finalement le systegraveme transforme les donneacutees extraites en un format

commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser

une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le

scheacutema global par des regravegles de correspondances deacutefinies (mappings)

Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle

en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons

aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un

entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du

systegraveme est citeacute dans la section suivante

75

httpjenaapacheorg 76

httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77

httpexistsourceforgenet

100

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW

101

3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE

LrsquoENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans

cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de

plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)

le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees

drsquoorigine

En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon

deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les

donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par

SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme

un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration

seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du

PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source

et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement

agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une

description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW

31 Scheacutemas de source

La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW

constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude

deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour

deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons

creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont

consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les

sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes

102

de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale

sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA

32 Services de donneacutees

Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees

et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration

(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees

accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute

comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons

deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons

deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du

Web

Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs

en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent

ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation

de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au

protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des

103

applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un

modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et

srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un

service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de

meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les

services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes

et reacuteutilisables raquo

Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la

fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture

adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service

Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le

protocole Web raquo

321 Architecture du service de donneacutees dans PseudmonasDW

Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)

Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de

diffeacuterentes sources de donneacutees

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW

Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux

sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document

104

XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa

seacutemantique comme un service web La seacutemantique du service Web inclut des informations

sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans

le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de

donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de

service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application

Programming Interface)

LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois

meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document

XML La structure du ce document doit satisfait les contraintes du scheacutema de la source

Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux

meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema

XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur

la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)

Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux

diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant

geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au

service Web La partie importante de la classe Service est de tenir la correspondance entre

la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de

donneacutees Autrement dit la classe service est responsable de mettre des correspondances

entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees

322 Impleacutementation du service de donneacutees dans PseudmonasDW

Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache

Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter

le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous

les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le

fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du

service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute

webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service

78

httptomcatapacheorg 79

httpwsapacheorgaxisoverviewhtml

105

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web

La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier

deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des

proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement

ltservicegt (Figure 22)

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web

Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont

Lrsquoattribut name indique le nom du service web

Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute

pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider

106

Java RPC qui permet drsquoexposer une classe Java quelconque en tant que

service Web

Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements

ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes

Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la

classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le

chemin vers la classe java compileacutee associeacutee au service Web (nous referons

ici agrave la classe Service)

Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes

exposeacutees par le service Web La valeur speacuteciale indique que nous avons

exposeacutes toutes les meacutethodes du serveur Web

La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service

dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil

drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur

de deacuteploiement du service via la commande suivante

java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd

-httphostnameportnumberwebServiceFolderNameservicesAdminService

Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService

WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute

effectueacutee par la saisie de la direction lsquohttphostnameportnumber

webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis

drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement

107

33 Scheacutema Inteacutegrateur du PseudmonasDW

Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de

sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche

deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de

lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les

donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute

effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des

sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct

est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des

informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune

redondance au niveau du scheacutema inteacutegrateur

Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des

informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour

identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons

appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du

scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema

global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

laquo Le scheacutema global correspond agrave la description des relations entre toutes les

donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de

leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo

(King et al 2008)

En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la

deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel

modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre

exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW

Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la

reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

(Figure 24)

108

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW

Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un

scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une

interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une

ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema

conceptuel

Une ontologie de domaine est une laquo description intentionnelle de ce qui nous

connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des

concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine

de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre

domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses

caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une

terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure

lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts

Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees

par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui

modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel

simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui

repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les

proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie

109

peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la

cateacutegorie des concepts relieacutes aux sources de donneacutees

Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les

entiteacutes biologiques (par exemple les classes gene genome protein

enzymehellip)

Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes

reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple

le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans

lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de

donneacutees originales Ce type de concept a un rocircle tregraves important pour garder

les traces de donneacutees dans PseudmonasDW

Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de

proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les

individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype

properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de

PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes

des objets

Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au

niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les

eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des

objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees

Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur

drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation

speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code

pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate

(Roychoudhury et al 1992)

Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase

sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo

algU reacutegule le gegravene algD

Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes

abreacuteviations que leurs gegravenes

Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif

Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132

110

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)

A partir de cet exemple nous pouvons deacuteduire

Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo

Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux

concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo

Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts

lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo

pour le concept lsquoEnzymersquo

Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du

concept lsquoProteinrsquo

Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie

standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de

OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de

domaine qui preacutesente une simple hieacuterarchie des concepts

34 Correspondances seacutemantiques entre les scheacutemas

En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin

drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements

approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de

ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une

111

des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees

(Toumani et al 2007)

Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As

View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des

sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente

une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue

deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de

donneacutees

Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de

sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de

correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de

donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que

nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA

P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath

Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie

En geacuteneacuterale nous avons deacutefinie trois types de mappings

112

Mapping des Classes ce type de mappings deacutefinie des associations entre les

classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere

suivante

XPath-Element-Location Ontology-Class-Name correspondence-

index

Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement

du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo

repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie

lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine

la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave

100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de

mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema

du BRENDA

ResultEnzymeEnzyme100

ResultEnzymeFunctional_ParameterKMKM100

Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les

proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il

srsquoeacutecrie comme suit

XPath-Domain-Location XPath-value-Location Ontology-Domain-

Name Property-Name correspondence-index

Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du

scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment

lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son

rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent

respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la

proprieacuteteacute de type de donneacutees lsquohasValuersquo

ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional

_ParameterKMKM_ValueKMhasValue100

ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu

nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal

ue100

Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes

drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere

suivante

113

XPath-Domain-Location XPath-Range-Location Ontology-Domain-

Name Ontology-Range-Name Property-Name correspondence-index

Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo

deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la

proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo

et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau

de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet

Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee

au scheacutema de source

ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti

onal_ParameterhasFunctionalParameter100

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web

Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des

infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de

programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application

distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour

mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter

tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains

drsquoentre eux

Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par

le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration

de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est

baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic

Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de

base pour construire des applications de Web seacutemantique il est disponible en tant que

serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour

consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)

Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le

meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire

seacutemantique (Semantic Directory)

Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et

al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure

27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO

est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les

relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV

114

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core

Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum

des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique

Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents

types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core

Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware

pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)

getOntology( url) listOntologies() and listOntologies(concept)

Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies

enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les

impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les

correspondances (mappings) entre le scheacutema de cette ressource et les ontologies

enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux

utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(

serviceName url queryMethod schemaMethod))

Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface

drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies

Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux

diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos

services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a

permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre

disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et

115

solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de

deacutetail dans la section 36)

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM

36 SB-KOM System Biology Khaos Ontology-based Mediator

Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un

systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute

SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes

2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a

eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des

sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est

composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et

lrsquoeacutevaluateurinteacutegrateur

Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et

coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des

116

reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et

assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes

provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats

conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en

terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type

de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient

les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de

domaine

Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des

plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans

geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees

pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees

Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il

y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de

domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des

scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees

seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme

correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath

sont actives dans la proprieacuteteacute

Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte

conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de

concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres

Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous

1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux

groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats

ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux

arguments (les proprieacuteteacutes)

2 Construire GS un ensemble de combinaisons entre les deux groupes en se

basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave

cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes

3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les

mapping enregistreacutees au niveau de SD-Core

4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les

arguments preacutedicats

a La variable instancieacutee constitue le nœud racine

b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour

la variable instancieacutee et les eacuteleacutements qui ne contiennent que la

variable instancieacutee (sans les autres variables) seront passeacutes au nœud

courant et eacutelimineacutes de GS

117

c Les eacuteleacutements qui contiennent une autre variable en plus de celle

instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres

nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees

seront repreacutesenteacutes par drsquoautres variables qui seront des variables

instancieacutees

d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour

chaque nouvelle variable instancieacutee

LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de

requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes

dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de

lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans

lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees

souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit

des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant

les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de

services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie

des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de

domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de

requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations

inutiles

4 PROCESSUS ETL DANS PSEUDOMONASDW

Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer

comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus

drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise

par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive

suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct

Ans(PEOGPW)-

Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym

e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)

ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn

(PPW)

Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee

lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un

organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de

cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies

118

meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des

donneacutees sur le gegravene qui code pour elle

Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en

terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de

donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P

Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient

les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de

cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de

donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism

IsEnzyme CodedBy et ParticipateIn) (Figure 29)

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge

La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et

qui sont relieacutees aux

Organism par le biais de la relation ForOrganism

Pathway par la relation ParticipateIn

Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi

agrave la classe Organism par la relation ForOrganism

Gene par la relation CodedBy

Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une

fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au

planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la

119

requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique

lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan

drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un

ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les

preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et

appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par

la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par

le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes

possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3

A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire

des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables

instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux

variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave

exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave

lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut

pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend

Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe

agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la

proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils

deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees

lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations

ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus

lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend

au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees

120

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte

Groupe Sous-requecircte Service de Donneacutees

G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA

Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors

que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque

nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes

par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-

requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave

lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter

Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant

Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour

notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la

proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le

nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de

classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques

dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-

requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de

donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee

avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher

les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce

que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le

service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)

parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG

Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments

(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes

lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo

A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees

extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des

instances des scheacutemas XML des sources sous-jacentes Le composant

Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles

121

de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine

enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de

domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles

sont produites de services de donneacutees diffeacuterents Afin de les associer

lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au

niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de

domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant

EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat

obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees

extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est

automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java

(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-

db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees

XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de

donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW

122

Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL

(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees

souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les

services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la

transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les

instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer

dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La

derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a

permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif

(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein

de PseudmonasDW

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

123

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

5 DISCUSSION ET CONCLUSION

Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels

du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en

bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et

donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui

caracteacuterisent les donneacutees biologiques

Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et

analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon

doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus

quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont

pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques

caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique

De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus

complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de

processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute

La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie

par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel

environnement

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de

Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de

multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement

drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et

reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes

124

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes

Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour

extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs

forment une partie importante dans les services de donneacutees qui fournissent des moyens

pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de

donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une

interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les

donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM

Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous

somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui

offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De

cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance

(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema

inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de

domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts

et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de

lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement

aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees

dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques

bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration

seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs

avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement

stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre

part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le

meacutediateur

Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que

leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se

distingue des autres sur diffeacuterents points

125

Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une

diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de

connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique

et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des

donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de

GO

Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement

adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique

appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans

PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema

global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema

afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une

modification profonde du scheacutema

Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des

sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des

donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas

la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la

non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute

Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation

Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne

maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans

PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local

dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

126

CHAPITRE 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp

127

Chapitre 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes

Pseacuteudomonas Sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163

1 INTRODUCTION

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces

bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de

certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee

par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et

chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute

de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de

Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique

128

Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de

donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme

Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI

Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82

National Center for Biotechnology Information (NCBI) Microbial Genomes83

(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de

donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques

sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne

pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que

Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site

Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune

grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent

sur le suivi des changements des annotations et de permettre leur comparaison entre les

espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part

Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees

fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de

donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et

fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais

manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les

voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas

la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees

qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas

aeruginosa PAO1

Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le

chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui

regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece

de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour

une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase

de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les

acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique

aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de

PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires

concernant les espegraveces de Pseudomonas

80

httpimgjgidoegov 81

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82

httpwwwxbaseacuk 83

httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84

httpwwwmicrobesonlineorg 85

httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86

httpwwwpseudomonas-syringaeorg 87

httpwwwpseudomonascom

129

2 MODEacuteLISATION DE PSEUDOMONASDW

Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il

est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de

passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les

proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle

dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de

nombreux choix qui auront des reacutepercussions importantes dans la suite

La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux

drsquoabstraction diffeacuterents

Modegravele conceptuel repreacutesente le contenu de la base en termes

conceptuels indeacutependamment de toute consideacuteration informatique

Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un

scheacutema propre agrave un type de base de donneacutees

Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et

drsquoaccegraves aux donneacutees de la base

La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des

systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins

des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle

consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux

domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains

aspects des systegravemes physiques ou humains et de leur environnement

Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee

gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling

Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et

son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques

et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur

lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par

ce langage pour la conception de PseudomonasDW

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW

Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de

PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une

88

Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage

130

fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle

joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)

et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun

utilisateur exteacuterieur le voit

Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur

(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le

biologiste)

Table4 La liste des acteurs

Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via

lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies

par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit

Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en

introduisant son URL

Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des

mots cleacutes via son interface web

Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en

utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme

a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)

Table5 les cas drsquoutilisation de lrsquoutilisateur

Acteur Cas drsquoutilisation

Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet

PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web

Administrateur Le superviseur du systegraveme

Cas drsquoutilisation

Etablissement drsquoune connexion avec le systegraveme

Interrogation du systegraveme

Analyse de donneacutees

131

b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)

Figure 33 Le diagramme de cas dutilisation de lutilisateur

PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees

stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du

PseudomonasDW sont comme suit

Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par

lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du

systegraveme

Construction du reacutesultat

Translation du reacutesultat en un format lisible par lrsquoutilisateur

a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)

Table 6 les cas drsquoutilisation de PseudomonasDW

Cas drsquoutilisation

Translation de la requecircte

Construction du reacutesultat

Translation du reacutesultat

132

b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW

Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer

nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser

lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent

le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit

Inteacutegration de donneacutees au sein de PseudomonasDW

Nettoyage de donneacutees en eacuteliminant les redondances

Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de

donneacutees en fonction des sources originales

Maintenance de lrsquoentrepocirct de donneacutees

Maintenance de lrsquointerface Web

Ajout des fonctionnaliteacutes en cas de besoin

a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)

Table 7 les cas drsquoutilisation de lrsquoadministrateur

Cas drsquoutilisation

Inteacutegration de donneacutees

Nettoyage de donneacutees

Mise agrave jour de donneacutees

Maintenance de PseudomonasDW

Maintenance de lrsquointerface Web

Ajout de fonctionnaliteacutes

133

b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)

Figure 35 Le diagramme de cas dutilisation de ladministrateur

22 Diagrammes de seacutequence du systegraveme PseudomonasDW

Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets

selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects

dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes

sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute

drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du

Siemens Pattern Group (Buschmann et al 1996)

Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des

messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW

(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les

diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son

reacutecepteur

134

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur

Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de

PseudomonsDW

message eacutemetteur reacutecepteur

1 Demande de connexion Utilisateur Web app

2 Etablissement de connexion Web app Utilisateur

3 Envoi de requecircte via des formulaires HTML Utilisateur Web app

4 Reacuteception de requecircte Web app Web app

5 Geacuteneacuteration de requecircte XQuery Web app Web app

6 Envoi de la requecircte XQuery Web app PDW DB

7 Interrogation des indexes PDW DB PDW DB

8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB

9 Construction de reacutesultat XML PDW DB PDW DB

10 Transformation de reacutesultat de XML en XHTML PDW DB Web app

11 Affichage de reacutesultat en forma XHTML Web app Utilisateur

135

23 Diagramme de classes du systegraveme PseudomonasDW

Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la

modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les

composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des

eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations

Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les

diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de

la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir

les diffeacuterentes classes et relations composant notre diagramme de classe

Le diagramme de classe de PseudomonasDW est constitueacute de six classes

principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)

auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de

raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous

a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses

diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des

bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes

en trois sections la section supeacuterieure contient le nom de la classe la section centrale

deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les

diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation

qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui

sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de

composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base

3 IMPLEMENTATION DE PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese

est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de

Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les

applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources

multiples

Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre

diviseacutes en deux familles (Mahboubi et al 2009)

La premiegravere famille propose une modeacutelisation multidimensionnelle pour les

entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en

eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des

dimensions et offrent un support pour des outils danalyse

136

Les approches de la seconde famille abordent la probleacutematique de lentreposage de

documents XML Elles perccediloivent un entrepocirct XML comme une collection de

documents XML

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous

sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les

donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML

Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML

Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des

documents XML obtenus de la transformation des instances RDF au niveau de notre

entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons

donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases

de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees

XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)

31 Organisation des bases de donneacutees de PseudomonasDW

Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du

genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base

de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection

des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees

selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des

scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce

modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de

lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de

PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons

nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo

137

Figure 37 Le diagramme conceptuel de PseudomonasDW

138

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW

Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees

Genomes complets

Pseudomonas aeruginosa PAO1 6264404 5682 5556

Pseudomonas aeruginosa M18 6327754 5764 5684

Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269

Pseudomonas aeruginosa LESB58 6601757 6061 5908

Pseudomonas aeruginosa PA7 6588339 6369 6246

Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886

Pseudomonas fluorescens PfO-1 6438405 5829 5714

Pseudomonas fluorescens Pf-5 7074893 6233 6137

Pseudomonas fluorescens SBW25 6722539 6106 5921

Pseudomonas fluorescens F113 6845832 5953 5862

Pseudomonas putida F1 5959964 5403 5245

Pseudomonas putida GB-1 6078430 5529 5408

Pseudomonas putida KT2440 6181863 5516 5350

Pseudomonas putida W619 5774330 5309 5182

Pseudomonas putida BIRD-1 5731541 5046 4960

Pseudomonas putida S16 5984790 5307 5171

Pseudomonas syringae pvphaseolicola 6112448 5437 5172

Pseudomonas syringae pvtomato 6397126 5688 5481

Pseudomonas syringae pvsyringae 6093698 5220 5089

Pseudomonas stutzeri A1501 4567418 4210 4128

Pseudomonas stutzeri DSM 4166 4689946 4372 4301

Pseudomonas stutzeri ATCC 17588 4547930 4287 4181

Pseudomonas entomophila L48 5888780 5275 5134

Pseudomonas mendocina ymp 5072807 4704 4594

Pseudomonas mendocina NK-01 5434353 5035 4954

Pseudomonas brassicacearum NFM421 6843248 6176 6081

Pseudomonas fulva 12-X 4920769 4540 4459

Genomes incomplets

Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207

Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905

Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221

Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096

Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402

Pseudomonas chlororaphis - - 218

Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts

(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie

meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements

figureacutes directement apregraves lrsquoeacuteleacutement racine

Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur

organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees

correspondante

Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au

gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee

Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees

sous lrsquoeacuteleacutement laquoProteinDataraquo

139

Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans

PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte

deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes

Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les

diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans

lrsquoentreacutee

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1

32 Impleacutementation des bases de donneacutees de PseudomonasDW

En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees

sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML

deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la

version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome

qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute

Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des

servlets pour lrsquoaccegraves distant

89

httpjettycodehausorgjetty

140

La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de

charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents

XML dans 33 collections une collection pour chaque espegravece entreposeacute dans

PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre

application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery

Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de

fonctions de XQuery

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW

90

XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML

141

4 INTERFACE WEB DE PSEUDOMONASDW

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

41 Les Moteurs de rechercheacute dans PseudomonasDW

Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des

moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees

XML natives

Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les

pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur

quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute

qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de

recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de

recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas

parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu

laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ

speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-

down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la

proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave

minimiser le temps et la complexiteacute de la recherche

Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la

possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce

formulaire de recherche ou moteur de recherche propose des champs de recherche

multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de

Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein

Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons

aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs

espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la

possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees

Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant

de 1 agrave 33

142

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche

143

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute

144

Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue

nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave

quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de

donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML

et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues

HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a

eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et

convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de

PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans

quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis

Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML

Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta

Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3

42 Les entreacutees de Pseudomonas DW

Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq

sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la

section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont

listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune

section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de

PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee

dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails

des cinq sections

La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces

informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la

langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant

pour les proteacuteines et les ARN

La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en

question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom

scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les

diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la

seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de

transcriptions les sites de liaison et les sites de mutations ou de modification Cette section

offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du

gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A

partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage

145

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524

146

La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle

contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui

permet un affichage et une lecture tregraves simple Les informations de cette section sont

repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la

proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et

lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes

caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les

reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que

la seacutequence peptidique de la proteacuteine

La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine

deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission

numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees

enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions

catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats

et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des

informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des

informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des

paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo

La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans

lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement

propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de

donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)

lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie

meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique

preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les

composants et les modules de la voie meacutetabolique

Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les

entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou

lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo

deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas

(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis

Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la

proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la

retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la

proteacuteine dans des voies meacutetaboliques

147

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW

Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees

biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types

Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees

bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper

ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant

Ces outils doivent donc ecirctre

Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet

Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs

Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre

de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre

obligeacute de jongler avec diffeacuterentes sources dinformations

Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des

biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les

premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les

deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la

visualisation des annotations associeacutees Cette classification est toutefois quelque peu

scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de

donneacutees outils dinterrogation et outils de navigation sur le geacutenome

Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation

aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes

agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique

quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce

manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et

inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre

outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires

entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces

stockeacutees dans PseudomonasDW

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)

Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas

facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs

points forts et plusieurs faiblesses

91

DataBank browsers 92

Genome browsers

148

Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente

la meilleure application pour la geacutenomique comparative mais dautre part un autre

navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec

beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de

deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et

qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest

pas aussi riche que Ensembl

Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux

besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave

Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen

attentif

Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur

geacutenomique pour PseudomonasDW

Ensembl est toute une application libre de droit dauteur sur son code source

qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le

neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute

et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse

ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et

la deacutecouverte et la reacutesolution de bugs plus difficile

Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des

avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute

que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le

fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans

le site Web Or la plupart des bases et banques de donneacutees geacutenomiques

existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme

navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs

utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le

trouveront plus aiseacute agrave manipuler

Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur

geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des

geacutenomes en plus de la rapiditeacute qui est indispensable

Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs

geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux

autres navigateurs (Sen et al 2010)

93

httpgmodorgwikiGBrowse

149

511 GBrowse Vue geacuteneacuterale

GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui

correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de

donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord

speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des

subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut

national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License

(ou GPL)

GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation

graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres

eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives

comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave

ADN GBrowse propose les fonctionnaliteacutes suivantes

vue globale et vue deacutetailleacutee du geacutenome

deacutefilement zoom et centrage

utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien

personnaliseacutees

joindre une URL arbitraire agrave une annotation

ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur

final

recherche par ID annotation nom ou commentaire

connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95

support multi-langues

prise en charge des annotations agrave partir du format GFF96

persistance des paramegravetres de session agrave session

plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de

nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des

cartes de restriction eacutediter des fonctions)

512 Installation de GBrowse

Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous

avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite

lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons

eu besoin drsquoinstaller

94

httpwwwbiosqlorgwikiMain_Page 95

httpgmodorgwikiChado_-_Getting_Started 96

httpgmodorgwikiGFF

150

Apache Web Server97

Perl 598

Les modules de Perl suivants

o GCI

o GD

o DBI

o DBD mysql

o Digest MD5

o Text shellwords

Bioperl99

Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi

drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une

installation automatique de GBrowse

adminadmin~$ sudo apt-get install gbrowse gbrowse-calign

gbrowse-data

La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les

donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de

gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec

sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape

drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des

adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature

que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD

le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est

le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations

au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer

la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB

SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le

plus reacutecent des adaptateurs et le plus recommandeacute

513 Creacuteation et peuplement des bases de donneacutees MySQL

Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une

eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par

PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque

chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees

relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce

97

httphttpdapacheorg 98

httpdevperlorgperl5 99

httpwwwbioperlorgwikiMain_Page

151

contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la

banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos

besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers

GFF3

La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de

donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait

la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans

PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees

pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees

MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par

lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse

adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn

dbimysqlDB_Name --user root --password

varlibgbrowsedatabasesfilegff3

La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles

soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de

fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la

forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de

GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui

152

srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le

paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de

configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi

nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour

donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante

Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse

nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un

onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave

lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil

GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage

reacutesultante

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011

153

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW

521 Blast Vue geacuteneacuterale

Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences

(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une

seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme

dun package composeacute des programmes suivants

blastn blast nucleacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques

blastp blast proteacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

proteacuteiques

blastx blast nucleacuteique vs proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

proteacuteiques

tblastn blast proteacuteique vs nucleacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

nucleacuteiques

tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences

nucleacuteiques

Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse

comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir

teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une

base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme

lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle

base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA

Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais

son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct

de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees

proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute

une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette

application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de

le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web

154

522 La fonctionnaliteacute du Blast

Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les

seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la

page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de

PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans

PseudomonasDW

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW

La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la

possibiliteacute de PrimeblasterPrime ses seacutequences contre

Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences

(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences

agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees

comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le

choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la

partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses

extreacutemiteacutes

Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire

de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette

155

option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des

bases de donneacutees stockeacutees au niveau de PseudomonasDW

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW

156

Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java

lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en

extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le

sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs

drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi

deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement

une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui

sera retourneacutee agrave lrsquoutilisateur via son navigateur Web

Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral

Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme

de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une

petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine

lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes

seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession

dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les

scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en

deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage

drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement

obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple

drsquoalignement

157

Figure50 Exemple de reacutesultat de Blast

6 PDWiki

Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons

deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de

donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des

informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies

meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts

diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive

Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les

Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous

introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa

maniegravere drsquoaccegraves

158

61 Geacuteneacuteraliteacute sur les Wikis biologiques

Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat

sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web

sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre

simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun

navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est

maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des

donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis

biologiques (bio-wikis) comprennent

Le deacuteveloppement collaboratif et le partage des connaissances

Lrsquoannotation collaborative de contenus de bases de donneacutees

La creacuteation collaborative de contenus de bases de donneacutees

Le deacuteveloppement collaboratif et le partage de la documentation et des

connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un

consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des

nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de

conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont

geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de

recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets

biologiques speacutecialiseacutes

Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait

que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement

coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de

donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux

utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats

indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler

cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien

que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de

donneacutees elles-mecircmes restent inchangeacutees

La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans

les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de

donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement

deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums

et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite

100

httpwwwwikipediaorg

159

62 PDWiki Infrastructure et contenue

PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki

baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et

correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des

extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de

diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104

automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de

MediaWiki

MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de

nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen

des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une

bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de

MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le

principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des

bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de

lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La

classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees

de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe

lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo

est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure

geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec

PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle

elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo

PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de

PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le

premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations

suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour

chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de

plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas

limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et

lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus

La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee

correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans

PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le

101

httpwwwmediawikiorgwikiMediaWiki 102

httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103

httpwwwmediawikiorgwikiExtension_Matrix 104

httpenwikipediaorgwikiWikipediaBots 105

httpjwbfsourceforgenet

160

nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans

PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas

modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir

PseudmonasDW

La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle

appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece

Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page

speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations

suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom

de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au

moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo

La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque

espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page

lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est

conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW

Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les

utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par

lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils

peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces

informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les

interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie

de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les

sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies

meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs

peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des

reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les

activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier

les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des

informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents

composants dans la section lsquoPathwaysrsquo

Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources

dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et

contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee

161

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW

lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils

contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo

162

pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la

page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease

alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des

gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)

lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation

ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de

certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une

liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de

cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene

Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo

Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie

meacutetabolique apparaissant dans une page lsquoPDWEPrsquo

63 Comment naviguer dans PDWiki

Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la

recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des

pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur

163

gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct

sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est

de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de

recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les

pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au

sein de PDWiki en utilisant le formulaire de recherche

Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque

espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave

une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre

PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible

daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa

Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire

de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple

et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a

plusieurs avantages certains dentre eux sont

Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo

quand quelquun fait des modifications au niveau des pages de PDWiki

Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et

une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres

utilisateurs

Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages

qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106

7 DISCUSSION

Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes

modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm

2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves

Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de

Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans

cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base

de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des

bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire

agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur

lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les

plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de

106

httpwwwmediawikiorgwikiManualWatchlist

164

Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en

comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees

PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees

laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre

pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines

interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait

ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base

de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee

eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de

PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des

informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees

aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de

PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies

meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des

informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c

oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation

oxydative et la voie meacutetaboliques

Dautre part PseudomonasDW fournit des informations sur un ensemble plus

vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux

ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces

sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas

aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1

Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM

4166 et Pseudomonas chlororaphis

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

165

CONCLUSIONS ET PERSPECTIVES

166

Conclusions eacutet peacuterspeacutectiveacutes

Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante

bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3

comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon

rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur

mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile

et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P

syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain

Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des

infections pulmonaires mortelles chez les patients atteints de fibrose kystique

Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la

recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes

geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations

Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une

heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont

actuellement disponibles publiquement les types de donneacutees sont divers et les ressources

sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent

une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour

deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour

deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des

formats plus standard tels que XML (eg GenBank) A noter que les banques proposent

souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats

est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)

objet (eg Gus) ou semindashstructureacute (eg GenBank)

Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier

lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-

Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la

proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de

deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la

167

confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une

mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque

Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les

langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)

dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des

langages structureacutes tels que SQL (Genopage) ou OQL (Gus)

La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations

lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible

leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la

bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources

de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette

automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine

pour une recherche plus efficace des informations et une meilleure exploitation des

reacutesultats

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute

proposeacutees les approches navigationnel entrepocirct et meacutediateur

Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont

extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les

deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des

sources ce sont des portails et des meacutediateurs

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement

les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

168

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement

inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le

cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe

KHAOS de lrsquouniversiteacute de Malage

Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de

donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les

sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent

autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees

biologiques

Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des

sources de donneacutees biologiques et comportent une description des divers niveaux

drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des

solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme

navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine

entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une

inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine

biologique afin de proposer une solution drsquointeacutegration simple et flexible

Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre

des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin

drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee

1 REacuteSUMEacute DES CONTRIBUTIONS

Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne

fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur

exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se

sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent

169

principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que

possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers

et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos

travaux concernent plusieurs points

Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees

biologiques de Pseudomonas Sp

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas

requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de

donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi

proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees

heacuteteacuterogegravenes

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW

integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq

sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot

BRENDA et KEGG

Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les

donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie

importante dans les services de donneacutees qui fournissent des moyens pour interroger et

correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le

processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des

requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les

transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services

de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees

Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce

manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine

de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute

utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de

donneacutees un service pour une source de donneacutees

PseudomonasDW integravegre des sources de donneacutees offrant des informations

chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets

170

eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique

pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration

seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global

inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un

scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous

les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global

de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare

citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle

sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les

sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau

de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune

modification profonde

Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le

meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute

notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a

joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM

Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation

preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances

permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances

retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation

automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de

donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part

les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une

interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees

sont virtuellement acheveacutees en utilisant le meacutediateur

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

171

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune

installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave

certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige

une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse

surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la

plateforme Linux

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes

baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents

XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui

contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents

XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement

(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33

collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

172

Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques

pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons

incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il

affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des

gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est

un programme permettant de reacutealiser des alignements et des comparaisons locaux entre

deux seacutequences (nucleacuteiques ou proteacuteiques)

PseudomonasDW contient 170000 entreacutes et fournit des informations sur un

ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave

10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome

database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa

NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244

Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC

17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis

La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les

voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies

et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des

sections speacutecifiques pour les enzymes et les voies meacutetaboliques

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

2 OUVERTURE ET PISTES DE RECHERCHE

La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave

disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves

nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension

anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre

deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant

Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et

consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette

thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs

173

Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous

focalisant sur plusieurs points particuliers

Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW

Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance

accordeacutee agrave la source et sa qualiteacute estimeacutee

Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la

performance des donneacutees stockeacutees au niveau de PseudomonasDW

Automatiser la recherche de correspondance entre eacuteleacutements des

scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour

rendre lrsquoajout des nouvelles sources de donneacutees plus facile

Concernant lrsquointeacutegration des donneacutees

Inteacutegrer non seulement des sources de donneacutees mais aussi des services

Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres

anneacutees dans le domaine biologique et les perspectives offertes

semblent tregraves prometteuses

Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de

preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour

fouiller et comparer les donneacutees inteacutegreacutees

174

GLOSSAIRE

175

Glossaireacute

Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois

nucleacuteotides (codons) dans lrsquoARN

ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation

geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le

chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN

macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des

chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement

(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN

formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se

dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du

pheacutenomegravene de reacuteplication

Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions

hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus

complexe

Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences

codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation

syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les

entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit

les sources de donneacutees biologiques

API (Application Programming Interface) Interface pour langages de programmation

mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme

pour par exemple communiquer ou extraire des donneacutees

ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de

ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une

seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de

transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques

Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences

comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour

deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions

drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui

permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des

proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes

Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non

Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule

drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune

hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les

cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion

176

agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la

division cellulaire

Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros

serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et

unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture

est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees

Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte

deacutecisionnel deacutecentraliseacute

Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de

donneacutees exemple dimension temporelle dimension proteacuteique hellip

Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur

conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme

moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs

du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur

DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par

Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document

SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu

constitueacute par leurs sous-eacuteleacutements et leurs attributs

Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les

organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est

fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype

Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le

geacutenome nucleacuteaire

Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central

de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines

notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes

de reacutegulation

Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee

numeacuterique

FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et

William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le

programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines

Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et

porteur drsquoune information geacuteneacutetique

Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece

Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties

drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome

177

GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et

distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix

HTML (HyperText Markup Language) Langage de description de pages Web Un standard

initieacute par le W3C et compatible tous systegravemes

Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes

Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement

diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble

Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN

correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation

Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position

choisie)

Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme

drsquoun scheacutema de donneacutees

MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant

une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui

explique les performances Dans le second les jointures entre les tables de dimension et de fait sont

effectueacutees au moment de la requecircte

OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place

drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une

cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs

dimensions

Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin

OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de

lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant

Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave

linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le

deacuteclenchement de la transcription) et un ou plusieurs gegravenes

OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par

lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et

collections

Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports

baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration

systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau

(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de

maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec

celui-ci

178

Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique

(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique

notamment Un comportement particulier tout comme une combinaison de comportements

peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou

plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes

et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un

caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou

moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement

deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son

alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse

existe eacutegalement)

Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui

apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations

auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul

Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique

Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave

30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent

des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=

le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour

assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de

lrsquoinformation

Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une

comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un

support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou

ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees

compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus

ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit

syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le

type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et

quantifieacutes

Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser

les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le

principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave

CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot

contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN

tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-

repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du

meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De

maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment

correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de

caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents

dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des

suppresseurs de tumeurs

179

Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir

du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un

support meacutetallique et analyseacutees par spectromeacutetrie de masse

ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de

lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles

Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc

sous une forme plus deacutetailleacutee

Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe

concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine

informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des

informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux

neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies

Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides

amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN

(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage

drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit

fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes

Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie

par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides

(polymegraveres de nucleacuteotides)

Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet

indeacutependamment des plates-formes et des langages sur lesquelles elles reposent

SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels

permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du

domaine drsquoapplication

Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier

des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de

masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe

reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport

massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines

scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages

biologie meacutedecine

SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de

programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans

des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut

extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de

donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus

complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de

180

modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de

donneacutees et daccegraves

Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance

lrsquoidentification des formes vivantes et leur rangement dans une classification

Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome

URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur

uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant

lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour

adresser les ressources du World Wide Web telles que des documents HTML des images ou des

sons

Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet

Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct

et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux

ordinateurs et aux humains de travailler en plus eacutetroite collaboration

XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et

de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications

en diffeacuterents environnements hardware et software

Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements

dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un

sur-ensemble de XPath

181

ANNEXES

182

Anneacutexeacute 1 UML

La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996

UML est une norme de lOMG (Object Management Group) qui est un consortium des

principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive

homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune

seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants

UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent

ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre

UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des

systegravemes informatiques

Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur

Modegravele des classes capture la structure statique

Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages

Modegravele des eacutetats exprime le comportement dynamique des objets

Modegravele de deacuteploiement preacutecise la reacutepartition des processus

Modegravele de reacutealisation montre les uniteacutes de travail

Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant

correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de

diagrammes

Diagramme des classes structure statique il repreacutesente les classes

intervenant dans le systegraveme

Diagramme des eacutetatstransitions comportement dune classe en termes

deacutetats

Diagramme dobjets repreacutesentation des objets (des occurrences des

classes) et de leur relations ils correspondent agrave des diagrammes de

collaboration simplifieacutes (sans envoi de message)

183

Diagramme des paquetages un paquetage eacutetant un conteneur logique

permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le

Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages

crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions

Diagramme de structure composite permet de deacutecrire sous forme de

boicircte blanche les relations entre composants dune classe

Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs

interactions

Diagramme de communication repreacutesentation simplifieacutee dun diagramme

de seacutequence se concentrant sur les eacutechanges de messages entre les objets

Diagramme global dinteraction permet de deacutecrire les enchaicircnements

possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de

diagrammes de seacutequences

Diagramme de temps permet de deacutecrire les variations dune donneacutee au

cours du temps

Diagramme des cas dutilisation il permet didentifier les possibiliteacutes

dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les

fonctionnaliteacutes que doit fournir le systegraveme

Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration

en termes dactions

Diagramme de composants repreacutesentation des composants physiques

dune application

Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les

steacutereacuteotypes des classes ou des packages

Diagramme de deacuteploiement repreacutesentation du deacuteploiement des

composants sur les dispositifs mateacuteriels

184

Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes

Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la

premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de

Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute

dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant

devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une

deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante

Une base de donneacutees XML native deacutefinit un modegravele logique pour un document

XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au

minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du

document

Une base de donneacutees XML native gegravere le document XML comme une uniteacute

fondamentale de stockage comme une ligne dans une table relationnelle

Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent

particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique

orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers

compresseacutes indexeacutes

La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de

donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain

nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de

donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de

lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc

La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale

dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible

qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents

lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des

bases de donneacutees XML actuelles

La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas

important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de

185

donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest

pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait

envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees

XML native comme eXist lrsquoa fait agrave ses deacutebuts

Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement

pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les

transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des

langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc

parfaitement dans notre approche entiegraverement baseacutee sur XML

186

Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute

Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de

donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate

Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute

sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace

drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience

drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel

Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage

propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves

actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est

compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un

processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une

application

eXist fournit un stockage sans scheacutema des documents XML dans des collections

hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des

documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs

peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents

contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement

de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification

rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-

descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de

chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement

les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de

documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions

La base de donneacutees convient bien aux applications manipulant des petites ou larges

collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute

conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant

lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes

XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath

187

et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre

autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres

Architecture drsquoeXist

eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement

agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents

XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale

Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement

seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des

courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et

les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques

comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles

possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un

ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et

XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du

cœur drsquoeXist

eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut

fonctionner comme un processus serveur autonome fournissant des interfaces http et

XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles

peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut

fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-

RPC SOAP109 et WebDAV110 sont fournis par les servlets

Figure 53 Architecture deXist copy Wolfgang Meier

107

httpxmlrpcscriptingcomspechtml 108

httpxmldb-orgsourceforgenetxapixapi-drafthtml 109

httpwwww3org2000xpGroup 110

httpwwwietforgrfcrfc2518txt

188

BIBLIOGRAPHIE

189

Bibliographieacute

Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125

Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary

Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442

Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410

Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381

Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29

Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress

Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press

Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520

Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155

Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE

Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178

Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37

Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15

Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863

Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314

190

Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104

Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333

Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille

Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7

Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53

Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet

Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons

Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192

Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates

Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences

Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193

Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93

Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69

Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis

Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148

Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306

Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie

Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592

Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74

191

Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87

Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345

Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979

Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy

Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique

Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531

Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572

Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53

Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822

Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc

Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432

Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20

Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57

Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128

Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68

Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469

Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris

Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73

192

Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research

Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8

Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788

Gautier C (1981) Nucleic acid sequences handbook Praeger

Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523

Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance

Griffith A (2005) Java XML and the JAXP In Wiley (ed)

Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928

Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174

Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264

Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153

Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511

Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9

Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119

Harold ER and Means WS (2004) XML in a Nutshell OReilly Media

Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA

Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915

Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60

Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190

Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448

Hunter J (2003) X is for Query Oracle Magazine

Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York

Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)

193

Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541

Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology

Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)

Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30

Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357

Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280

Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59

Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169

Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley

Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337

Kimball R (2002) data warehouse toolkit

Kimball R (2003) The Bottom-Up Misnomer

King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18

Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper

Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web

Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597

Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283

Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138

Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni

Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170

194

Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268

Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441

List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215

MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA

Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562

Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144

Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348

Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105

Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381

Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378

Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755

McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)

McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587

Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34

Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376

Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477

Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537

Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall

Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65

195

Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269

Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga

Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622

Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230

Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2

Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846

Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125

Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350

Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163

Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171

Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)

Rehm B (2009) Pseudomonas Wiley-VCH

Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557

Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996

Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149

Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84

Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010

Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696

Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236

Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243

Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871

196

Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York

Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186

Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188

Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141

Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298

Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73

Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110

Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276

Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298

Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis

Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717

Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49

Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488

Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6

Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150

Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373

Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33

197

Reacute feacute reacutenceacutes Inteacuterneacutet

198

Reacute feacute reacutenceacutes Inteacuterneacutet

(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml

AmiGO httpamigogeneontologyorgcgi-binamigogocgi

Apache Server httphttpdapacheorg

ArrayExpress httpwwwebiacukarrayexpress

ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm

Axis httpwsapacheorgaxisoverviewhtml

BioCyc httpbiocycorg

BioGrid httpthebiogridorg

Bioperl httpwwwbioperlorgwikiMain_Page

biosql httpwwwbiosqlorgwikiMain_Page

Blast httpblastncbinlmnihgovBlastcgi

Bots httpenwikipediaorgwikiWikipediaBots

BRENDA httpwwwbrenda-enzymesinfo

Chado httpgmodorgwikiChado_-_Getting_Started

ChEBI httpwwwebiacukchebi

CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

core httpdublincoreorg

CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast

dbEST httpwwwncbinlmnihgovdbEST

dbSNP httpwwwncbinlmnihgovprojectsSNP

DDBJ httpwwwddbjnigacjp

Dublin Core httpdublincoreorg

EBI httpwwwebiacuk

EcoCyc httpecocycorg

EMBL httpwwwemblde

EMBO httpwwwemboorg

ensEMBL httpwwwensemblorgindexhtml

Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric

Entrez httpwwwncbinlmnihgovsitesgquery

EPConDB httpwwwcbilupenneduepcondb42

eXist httpexistsourceforgenet

199

ExPASy httpexpasyorg

ExPASy httpexpasyorg

Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix

FASTA httpwwwebiacukToolssssfasta

Flybase httpflybaseorg

Garlic httpwwwalmadenibmcomcsgarlic

Gbrowse httpgmodorgwikiGBrowse

GDB httpgdbwwwgdborg

Genbank httpwwwncbinlmnihgovnuccore

GeneCards httpwwwgenecardsorg

GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame

GEO httpwwwncbinlmnihgovgeo

GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

GFF httpgmodorgwikiGFF

GO httpwwwgeneontologyorg

HGNC httpwwwgenenamesorg

IMG httpimgjgidoegov

inmon httpenwikipediaorgwikiBill_Inmon

InterPro httpwwwebiacukinterpro

Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml

JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

jena httpjenaapacheorg

Jetty httpjettycodehausorgjetty

JWBF httpjwbfsourceforgenet

KEGG httpwwwgenomejpkegg

LION Bioscience AG httpwwwbiochipnetcomnode1561

MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings

Medline httpwwwmedlinecom

MeSH httpwwwnlmnihgovmesh

MetaCyc httpmetacycorg

MGI httpwwwinformaticsjaxorg

Microbes Online httpwwwmicrobesonlineorg

MIPS httpwwwhelmholtz-muenchendeenibis

MySQL httpwwwmysqlcom

NCBI httpwwwncbinlmnihgov

NIH httpwwwnihgov

OBO httpwwwobofoundryorg

ODMG wwwodmgorg

OMIM httpwwwomimorg

ORACLE httpwwworaclecomindexhtml

OWL httpwwww3orgTR2009WD-owl2-primer-20090611

PDB httpwwwrcsborgpdbhomehomedo

200

peer-review literature httpenwikipediaorgwikiPeer_review

perl httpdevperlorgperl5

Pfam httppfamsangeracuk

PhosphGrid httpwwwphosphogridorg

Plasmodb httpplasmodborgplasmo

ProDom httpprodomprabifrprodomcurrenthtmlhomephp

PRODORIC httpwwwprodoricde

Proteacutegeacute httpprotegestanfordedu

Pseudomonas Genome Database httpwwwpseudomonascom

Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg

PseudomonasDW httpwwwpseudomonasdwkhaosumaes

PubMed httpwwwncbinlmnihgovpubmed

Qexo httpwwwxmlcompuba20030611qexohtml

RDF httpwwww3orgTRrdf-concepts

RDFS httpwwww3orgTRrdf-schema

RefSeq httpwwwncbinlmnihgovRefSeq

RiboWeb httphelix-webstanfordeduribowebhtml

SGD database httpwwwyeastgenomeorg

SRS httpsrsebiacuk

Tomcat httptomcatapacheorg

UML httpwwwumlorg

UMLS httpwwwnlmnihgovresearchumls

UniGene httpwwwncbinlmnihgovunigene

UniProt httpwwwuniprotorg

W3C httpwwww3org

watchlist httpwwwmediawikiorgwikiManualWatchlist

WebDAV httpwwwietforgrfcrfc2518txt

Wikipedia httpwwwwikipediaorg

xBASE httpwwwxbaseacuk

XML httpwwww3schoolscomxml

XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml

XML-RPC httpxmlrpcscriptingcomspechtml

XML-RPC SOAP httpwwww3org2000xpGroup

ZFIN httpzfinorg

Page 3: UNIVERSITE ABDELMALEK ESSAADI - IMIST

Remerciement

1

Reacute sumeacute

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de

culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas

ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie

par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre

drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a

conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis

de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de

donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la

reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce

travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche

LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage

Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et

lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre

lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes

sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct

de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de

donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et

BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration

seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins

des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des

donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees

heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave

partir drsquoune seules source

Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride

PseudomonasDW

2

Reacutemeacutercieacutemeacutents

3

Reacutemeacutercieacutemeacutents

Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani

pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute

et aideacute tout au long de ses anneacutees de thegravese

Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-

encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de

recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches

Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger

mon travail

Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe

khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton

preacutecieux soutien

A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute

leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont

teacutemoigneacutes

Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec

une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton

encouragement

Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes

compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave

lrsquoavancement de ce travail

Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere

Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma

grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille

Briache

Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail

4

Sommaireacute

5

Sommaireacute

Introduction geacuteneacuterale 18

1 Problematique et motivation 19

2 CADRE ET BUTS DU TRAVAIL 23

3 Les pseudomonas 24

31 Caracteres geacuteneacutereaux 24

32 Pouvoir pathogegravene 26

33 Lutte biologique 27

4 Structure de document 28

Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

1 Introduction 31

2 Eacutetat des sources 32

21 Varieacuteteacute des sources biologiques 33

22 Autonomie et capaciteacutes drsquointerrogation 35

3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37

31 Diversiteacute syntaxique 37

32 Diversiteacute seacutemantique 38

33 Diversiteacute des langages de requecircte 39

34 Diversiteacute des services 39

4 Eleacutements de standardisation 40

41 Format standards et nomenclatures 40

42 Ontologies 41

43 Meacutetadonneacutees 42

44 Langages et formalismes 43

Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46

1 Introduction 47

2 points de variation entre les approches drsquointeacutegration 49

21 Degreacute drsquointeacutegration 49

211 Approche agrave couplage serreacute 49

6

212 Approche agrave couplage lacircche 50

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50

221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50

222 Types drsquointeacutegrations seacutemantique 51

223 Approches ascendante et descendante 51

23 Mateacuterialisation des reacutesultats 52

24 Accegraves aux donneacutees 52

3 approches drsquointeacutegration en bioinformatique 52

31 Approche non mateacuterialiseacutee 53

311 Le systegraveme meacutediateur 53

312 Le systegraveme navigationnel 61

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70

321 Deacutefinition et Architecture 70

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74

324 Les modegraveles des entrepocircts de donneacutees 75

325 Adeacutequation Problegravemes rencontreacutes 81

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82

4 Discussion 86

Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de

Pseudomonas sp 90

1 Introduction 91

2 Vue Global sur le systegraveme PseudomonasDW 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94

211 Bases de donneacutees geacutenomique et proteacuteique 95

212 Bases de donneacutees meacutetaboliques 96

213 Bases de donneacutees Enzymatique 97

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101

31 Scheacutemas de source 101

32 Services de donneacutees 102

321 Architecture du service de donneacutees dans PseudmonasDW 103

7

322 Impleacutementation du service de donneacutees dans PseudmonasDW 104

33 Scheacutema Inteacutegrateur du PseudmonasDW 107

34 Correspondances seacutemantiques entre les scheacutemas 110

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113

36 SB-KOM System Biology Khaos Ontology-based Mediator 115

4 Processus ETL dans Pseudomonasdw 117

5 Discussion et conclusion 123

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

126

1 Introduction 127

2 MODEacuteLISATION de PseudomonasDW 129

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129

22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133

23 Diagramme de classes du systegraveme PseudomonasDW 135

3 IMPLEMENTATION DE PSEUDOMONASDW 135

31 Organisation des bases de donneacutees de PseudomonasDW 136

32 Impleacutementation des bases de donneacutees de PseudomonasDW 139

4 INTERFACE WEB DE PSEUDOMONASDW 141

41 Les Moteurs de rechercheacute dans PseudomonasDW 141

42 Les entreacutees de Pseudomonas DW 144

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147

511 GBrowse Vue geacuteneacuterale 149

512 Installation de GBrowse 149

513 Creacuteation et peuplement des bases de donneacutees MySQL 150

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153

521 Blast Vue geacuteneacuterale 153

522 La fonctionnaliteacute du Blast 154

6 PDWiki 157

61 Geacuteneacuteraliteacute sur les Wikis biologiques 158

62 PDWiki Infrastructure et contenue 159

63 Comment naviguer dans PDWiki 162

8

7 DISCUSSION 163

Conclusions et perspectives 165

1 Reacutesumeacute des contributions 168

2 Ouverture et pistes de recherche 172

Glossaire 174

Annexes 181

Bibliographie 188

Reacutefeacuterences Internet 197

9

INDEX DES FIGURES ET DES TABLES

FIGURES

Figure 1 Architecture dun systegraveme meacutediateur 54

Figure 2 Lapproche GAV (Global As View) 56

Figure 3 Lapproche LAV (Loacl As View) 56

Figure 4 Approche GLAV 57

Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62

Figure 6 Graphe de liens entre les sources 63

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65

Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67

Figure 9 Architecture de BioGuide 69

Figure 10 Architecture dun entrepocirct de donneacutees 71

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de

donneacutees 73

Figure 13 Exemple de cube de donneacutees 76

Figure 14 Modegravele en eacutetoile 78

Figure 15 modegravele en flocon 78

Figure 16 Modegravele en constellation 78

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le

systegraveme PseudmonesDW 103

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108

10

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre

conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux

relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et

les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et

lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la

formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet

sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles

de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en

haut des eacuteleacutements de lontologie en rouge 118

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc

contient des informations pour acceacuteder aux services de donneacutees 119

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat

final de leacutetape ETL au sein de systegraveme PseudomonasDW 121

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction

de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de

chargement de donneacutees au sei de PseudmonasDW 122

Figure 33 Le diagramme de cas dutilisation de lutilisateur 131

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132

Figure 35 Le diagramme de cas dutilisation de ladministrateur 133

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134

Figure 37 Le diagramme conceptuel de PseudomonasDW 137

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A

gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW

A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas

aeruginosa PAO1 139

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees

au niveau de PseudomonasDW 140

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne

la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de

seacutelectionner un champ speacutecifique de recherche 142

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections

Organism et Gene de lentreacutee PAE00524 145

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154

11

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles

lutilisateur peut choisir 155

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences

indeacutependamment des bases de donneacutees de PseudomonasDW 155

Figure50 Exemple de reacutesultat de Blast 157

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir

et annoter lentreacutee PAE00524 de PseudomonasDW 161

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de

PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162

Figure 53 Architecture deXist copy Wolfgang Meier 187

TABLES

Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54

Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117

Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130

Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131

Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140

12

ABREVIATION

13

ABREVIATION

ADN Acide Deacutesoxyribonucleacuteique

API Application Programming Interface

ASN Abstract Syntax Notation

BACIIS Biological And Chemical Information Integration System

BioGRID Biological General Repository for Interaction Datasets

BLAST Basic Local Alignment Search Tool

CGH Comparative genomic hybridization

ChEBI Chemical Entities of Biological Interest

CMR Comprehensive Microbial Resource

CPAN Reacuteseau Complet drsquoArchives Perl

CPL Collection Programming Language

CSS Cascading Style Sheets

CSUQ Computer System Usability Questionnaire

CYGD Comprehensive Yeast Genome Database

DAML DARPA Agent Markup Language

dbEST Expressed Sequences Tags databases

DDBJ DNA Data Bank of Japan

DTD Document Type Definition

EBI European Bioinformatics Institute

EcoCyc Encyclopedia of Escherichia coli

EMBL European Molecular Biology Laboratory

EMBO European Molecular Biology Laboratory

EPG Entity Path Generator

ETL Extraction transformation and loading

ExPASy (Expert Protein Analysis System

FTP File Transfer Protocol

GAM Generic Annotation Management

GAV Global As View

GDB Human Genome Databases

GEDAW Gene Expression DAta Warehouse

GenMapper Genetic Mapper

GEO Gene Expression Omnibus

GeWare Gene Expression Warehouse

14

GFF General Feature Format

GIMS Genome Information Management System

GLAV Generalized Local As View

GMOD Generic Modele Organisme Database project

GNU GNUs Not UNIX

GO Gene Ontology

GPL General Public License

GRAIL GALEN Representation and Integration Language

GUS Genomics Unified Schema

HGNC Human Gene Organisation

HGP Human Genome Project

HGP Human Genome Project

HTML HyperText Markup Language

HTTP Hypertext Transfer Protocol

IBM International Business Machines

ICARUS Interpreter of Commands And Recursive Syntax

IMG Integrated Microbial Genomes

INSDC Internatinal Nucleotide Sequence Database Collaboration

INSERM Institut National de la Santeacute et de la recherche meacutedicale

IRISA Institut de Recherche en Informatique et Systegravemes

Aleacuteatoires

JAXB Java Architecture for XML Binding

JAXP Java API for XML Processing

JDBC Java Database Connectivity

K2MDL K2 Mediator Definition Language

KEGG Kyoto Encyclopedia of Genes and Genomes

KOMF Khaos Ontology-based Mediation Framework

LAV Local As View

MCM Modegravele Conceptuel Multidimensionnel

MeSH Medical Subject Headings

MGD Mouse Genome Database

MGI Mouse Genome Informatics

MIPS Munich Information Center for Protein Sequences

MOLAP Multidimensionnal On Line Analytical Processing

NAR Nucleic Acids Research

NBRF National Biomedical Research Foundation

NCBI National Center for Biotechnology Information

15

NIH National Institutes of Health

NXD Native XML Database

OBO Open Biomedical Ontologies

ODL Object Definition Language

ODMG Object Data Management Group

OIL Ontology Inference Layer

OLAP On Line Analytical Processing

OLTP On Line Transactionnel Processing

OMG Object Management Group

OMIM Online Mendelian Inheritance in Man

OOLAP Object On-Line Analytical Processing

OQL Object Query Language

OWL Web Ontology Language

PDP Protein Data Bank

Pfam Protein Famili

PHP Hypertext Preprocessor

PIR Protein Identification Ressource

PPI Protein-Protein Interaction

PQL Program Query Language

PRODORIC PROcariotIC Database Of Gene-Regulation

QUIS Questionnaire for User Interface Satisfaction

RDF Resource Description Framework

RDFS Resource Description Framework Schema

ROLAP Relational On-Line Analytical Processing

SB-KOM System Biology Khaos Ontology-based Mediator

SEPT Source Entity Path Translator

SGBD Systegraveme de gestion de base de donneacutees

SGD Saccharomyces Genome Database

SKB Source Knowledge Base

SOAP Simple Object Access Protocol

SOFG Standards and Ontologies for Functional Genomics

SQL Structured Query Language

SRS Sequence Retrival System

SUS System Usability Scale

Tambis Transparent Access to Multiple Bioinformatic

InformationSources

TaO Tambis Ontology

16

UCL Universiteacute catholique de Louvain

UML Unified Modelling Language

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USA United States of America

W3C World Wide Web Consortium

WSDL Web Services Description Language

XML Extensible Markup Language

XSLT Extensible Stylesheet Language Transformations

ZFIN Zebrafish Information Network

17

NOTE AU LECTEUR

Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire

18

INTRODUCTION GENERALE

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute

19

Introduction geacute neacute raleacute

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au

domaineacute biologiqueacute

Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere

exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des

sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au

plus grand nombre ouvrant ainsi de belles perspectives en recherche

La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant

les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation

diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse

du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees

diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de

reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees

heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte

Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte

La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs

disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la

complexiteacute du monde vivant (Blagosklonny and Pardee 2002)

Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de

diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques

implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de

donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature

1 PROBLEMATIQUE ET MOTIVATION

Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les

laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute

20

des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de

donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel

Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats

La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas

envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la

documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de

consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter

les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers

plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML

(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les

langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery

(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont

parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur

Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui

avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun

(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes

incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige

lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees

enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par

le biais de formulaires Web ou par une connexion directe au SGBD

De nos jours la masse formidable de donneacutees produites par les centres de recherche

atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de

systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb

2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette

accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune

science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee

2005)

Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des

donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute

particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces

sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare

de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige

leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du

systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise

optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La

1 httpwwwncbinlmnihgovnuccore

2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-

mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

21

majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des

serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent

montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge

Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne

concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct

lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la

preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres

deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-

Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de

logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans

compensation financiegravere5

Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave

rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee

possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux

problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin

dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes

eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario

typique reacutesolu manuellement

Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les

voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee

laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe

le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo

Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape

consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees

Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu

dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par

exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees

KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations

fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue

qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous

auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible

nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave

geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens

hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml

4 httpwwwmysqlcom

5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes

6 httpwwwbrenda-enzymesinfo

7 httpwwwgenomejpkegg

22

paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que

GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes

dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que

tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention

humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne

pas dire inexistante

Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages

de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des

solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface

unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le

cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles

(architecture de meacutediation)

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les

donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des

hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J

and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque

base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace

physique occupeacute serait trop important tant par les donneacutees que la conservation de leur

traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de

fonctionnement du systegraveme

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

23

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans

certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de

transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees

2 CADRE ET BUTS DU TRAVAIL

Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il

srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions

moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux

drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur

apparition croissante dans la litteacuterature scientifique

Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette

masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles

connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet

comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le

Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis

quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer

lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte

drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double

Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces

donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une

proteacuteine donneacutee

Fournir une plateforme complegravete permettant drsquoorienter la recherche par

extraction de nouvelles connaissances

La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en

combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la

mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine

biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre

24

groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de

Malaga

La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees

biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets

drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-

organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees

PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les

enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki

scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la

communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations

relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans

PseudomonasDW

3 LES PSEUDOMONAS

31 Caracteres geacuteneacutereaux

Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al

2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes

Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec

comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le

nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles

sont oxygegravene (+)

Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes

comme source de carbone et drsquoeacutenergie

Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux

antibiotiques et aux antiseptiques

A) Morphologie et structure

Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La

mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour

les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en

deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture

25

B) Croissance et nutrition

De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la

tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes

La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont

capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de

carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les

auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats

carboneacutes utilisables comme source drsquoeacutenergie pour la croissance

C) Caractegraveres physiologiques

Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de

conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de

culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle

tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip

D) Habita

Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol

humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et

se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels

surtout srsquoils sont humides

E) Morphologie et caractegraveres culturaux

Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune

pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de

cette bacteacuterie

Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC

ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la

production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et

non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski

convient pour la culture

F) Aspects de colonies

Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut

ecirctre observeacutee

Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un

contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect

meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave

lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes

Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord

circulaire reacutegulier

26

Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces

colonies se rencontrent presque speacutecifiquement dans des infections chroniques

urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un

polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo

G) Production de pigments

Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification

Ils sont fluorescents ou non fluorescents

Pyoverdine

Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en

eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est

inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer

Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes

fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas

aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de

nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un

moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer

et de le transporte

Pyocyanine

Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la

seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves

drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en

milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la

chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na

Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches

sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des

malades traiteacutes aux antibiotiques

Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent

de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le

diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P

lemonieri P stutzeri et P mendocina

32 Pouvoir pathogegravene

Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme

pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et

27

cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle

peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle

comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par

lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave

certains antibiotiques courants

Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble

laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique

de mauvaises conditions de plantation une autre maladie des blessures un systegraveme

racinaire contraint ou asphyxieacute

Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme

agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de

Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux

eacutetudieacutee

33 Lutte biologique

De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de

biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la

biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par

des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol

ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches

mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour

deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les

performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres

bacteacuteries

Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute

microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les

genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement

sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui

colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent

particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique

Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de

population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient

sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres

rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des

exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave

isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-

A-Woeng et al 2001)

28

Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues

depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans

certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents

phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs

meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de

sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition

du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela

peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la

maladie

4 STRUCTURE DE DOCUMENT

Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les

diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une

description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources

Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions

majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et

montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de

la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques

des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)

qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de

donneacutees originales jusqursquoagrave PseudomonasDW

Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les

espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les

phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet

aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous

deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans

PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur

drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW

Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs

29

Preacutemieacute reacute Partieacute

30

CHAPITRE 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

31

Chapitre 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

Sommaire

1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38

33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41

43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42

44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43

1 INTRODUCTION

Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif

est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de

solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees

Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80

sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier

1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute

une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise

en place de systegravemes de stockage des donneacutees

32

En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de

seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute

ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos

(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees

relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration

entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest

eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour

proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui

accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques

Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere

sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource

(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve

degraves 1986

2 EacuteTAT DES SOURCES

Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web

eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases

Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus

importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and

Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de

1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu

le jour

On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les

dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de

ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre

source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le

Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)

quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne

leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont

vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces

agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute

stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute

8 httpwwwemboorg

9 httpwwwnihgov

10 httpwwwncbinlmnihgov

11 httpwwwddbjnigacjp

12 httpwwwncbinlmnihgovgeo

13 httpwwwebiacukarrayexpress

33

creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le

deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement

analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)

drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les

reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de

donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements

multiples

La sous-section suivante dresse un rapide panorama drsquoun certain nombre de

sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web

21 Varieacuteteacute des sources biologiques

Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La

classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave

lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees

qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)

classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes

(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de

donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des

travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources

suivantes

Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du

domaine meacutedical Medline16 PubMed17

Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en

existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les

seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank

(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui

contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits

les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de

donneacutees sont ArrayExpress (Europe) et GEO (USA)

Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees

disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement

chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par

14

httpblastncbinlmnihgovBlastcgi 15

httppfamsangeracuk 16

httpwwwmedlinecom 17

httpwwwncbinlmnihgovpubmed

34

un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou

GEOArrayExpress) dans un certain format Toute publication scientifique

soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de

puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification

GenBankEMBLDDBJ (respectivement GEOArrayExpress)

Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne

sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des

seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la

soumission

Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces

sources contiennent des informations nettoyeacutees (au moins automatiquement

comme la suppression de doublons) et parfois mecircme valideacutees manuellement par

des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires

est de partir de donneacutees issues des sources primaires pour proposer des

informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations

compleacutementaires

Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont

deux exemples de sources secondaires qui proposent de regrouper les fiches

GenBank La premiegravere propose une version non redondante de GenBank elle est

obtenue en utilisant des techniques de regroupement semi-automatiques alors que

la seconde construit de faccedilon automatique des clusters de seacutequences

Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement

du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun

ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un

ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans

lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les

reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de

publications et associeacutes agrave un pheacutenotype (une maladie) donneacute

Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources

au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage

(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes

automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils

bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources

18

httpwwwncbinlmnihgovRefSeq 19

httpwwwncbinlmnihgovunigene 20

httpwwwncbinlmnihgov 21

httpwwwomimorg 22

httpprodomprabifrprodomcurrenthtmlhomephp

35

sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des

reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees

Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees

sur une famille de fonctions biologiques Par exemple la source BRENDA

est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique

sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources

FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database

SGD24 (deacutedieacutee agrave la levure)

Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de

fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes

dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve

dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de

synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes

humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt

(Consortium 2010) GenBank)

22 Autonomie et capaciteacutes drsquointerrogation

La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement

autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait

libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent

souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en

faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles

reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source

pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude

du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit

prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution

afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci

lors de lrsquoexeacutecution des requecirctes

Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web

est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet

eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de

cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les

accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client

23

httpflybaseorg 24

httpwwwyeastgenomeorg 25

httpwwwgenecardsorg

36

FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par

exemple) ou plus reacutecemment encore via des appels de services Web Concernant les

interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui

suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces

qursquoil devra utiliser

Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent

tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas

lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont

disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent

soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il

nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la

puissance de calcul drsquoune source par une requecircte trop complexe

soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive

drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source

Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme

drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et

via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs

sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus

expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL

Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais

aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)

ou Fasta26 (Lipman and Pearson 1985)

Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs

repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation

ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les

proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre

automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de

faciliteacute en fonction de lrsquoapproche suivie

26

httpwwwebiacukToolssssfasta

37

3 DIFFICULTES RENCONTREES LORS DE

LrsquoINTERROGATION DES SOURCES

Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web

nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de

donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout

une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements

effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au

cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble

de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi

que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux

des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements

En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele

de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a

deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati

2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses

approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La

taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation

mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des

probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al

2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques

qui rendent leur interrogation complexe et fastidieuse

31 Diversiteacute syntaxique

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les

formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees

soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson

1985) soit du XML du HTML ou des SGBD relationnels ou objets

Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase

drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le

deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du

langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin

2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et

al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave

reacutesoudre

27

httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

38

32 Diversiteacute seacutemantique

Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui

sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus

Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une

entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine

qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene

codant pour chaque proteacuteine est alors vu comme un simple attribut Au

contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et

crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le

domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine

(dans PDB29)

Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee

nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par

exemple UniProt propose des informations sur des proteacuteines issues de

diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles

ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire

chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune

des proteacuteines de la levure

Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une

mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par

exemple selon les sources une proteacuteine est une isoforme particuliegravere

(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes

(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui

peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou

incluant les introns

La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais

qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des

modegraveles des formats et des scheacutemas diffeacuterents

Diversiteacute des informations au niveau des instances

Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son

expertise agrave travers une fiche Il peut arriver que selon les sources une

mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes

Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance

associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est

peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe

drsquoannotateurs Certains annotateurs emploieront le terme de putative 28

httpwwwebiacukinterpro 29

httpwwwrcsborgpdbhomehomedo

39

pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront

le terme hypothetical Drsquoautres encore ne preacuteciseront rien

Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent

plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme

proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les

sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait

plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes

diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas

en preacutesence drsquohomonymie

Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi

ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de

vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie

les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable

puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de

la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees

33 Diversiteacute des langages de requecircte

Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le

langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)

est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases

de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la

source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin

et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes

OQL sur leur scheacutema

34 Diversiteacute des services

Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees

(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave

une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers

ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre

lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par

exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des

heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de

30

httpwwwensemblorgindexhtml

40

donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences

nucleacuteotidiques comme BlastN)

4 ELEMENTS DE STANDARDISATION

Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute

proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms

des concepts sous-jacents aux donneacutees des sources et des noms des relations entre

ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre

experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le

second type de solution est plus geacuteneacuterique il comprend la construction de cadres de

repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que

lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de

concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de

solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees

contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees

41 Format standards et nomenclatures

Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de

terminologies standards pour deacutecrire les donneacutees

Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir

des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies

pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un

workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu

annuellement et regroupe les principaux acteurs sur cette probleacutematique

Le souci de standardisation de lrsquoattribution de noms est pris en compte par le

consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature

Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences

31

httpwwwgenenamesorg

41

42 Ontologies

Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de

faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la

construction de nombreuses ontologies

Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la

philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions

informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune

conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus

souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie

cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a

donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces

concepts

Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine

biologique

Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui

vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques

speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un

organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement

consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants

cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la

communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres

ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie

MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)

Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open

Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en

ligne dont voici un extrait

Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces

particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du

Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish

Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on

distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour

32

httpwwwgeneontologyorg 33

httpwwwobofoundryorg 34

httpwwwinformaticsjaxorg 35

httpzfinorg 36

httpwwwnlmnihgovresearchumls

42

les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject

Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine

Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al

2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39

(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un

dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave

lrsquoEBI41

Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et

al 1997) propose un format de donneacutees une nomenclature et un cadre XML

(RNA-ML) (Waugh et al 2002)

Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)

nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN

et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies

se preacutesentent sous la forme de graphes non cycliques

43 Meacutetadonneacutees

Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil

srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave

une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee

permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation

et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples

de meacutetadonneacutees

lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification

des commentaires exprimant un point de vue sur la ressource

le scheacutema des donneacutees les index associeacutes

des informations de qualiteacute relatives au scheacutema de la ressource

des informations statistiques sur les donneacutees

la speacutecification la signature drsquoun programme

37

httpwwwnlmnihgovmesh 38

httpecocycorg 39

httpmetacycorg 40

httpwwwebiacukchebi 41

httpwwwebiacuk 42

httphelix-webstanfordeduribowebhtml

43

Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute

proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la

description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere

geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la

description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements

(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en

cateacutegories

Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description

(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant

le contenu de la ressource titre sujet ou codes de classement description

source langue relation avec une autre ressource couverture spatiale et temporelle

la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation

la mateacuterialisation de la ressource cycle de vie type format identificateur

44 Langages et formalismes

Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont

deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont

XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du

W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de

donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre

explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou

des applications

Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun

document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en

particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la

grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux

formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document

Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee

en XML

Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les

eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt

43

httpdublincoreorg 44

httpwwww3org

44

De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois

des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique

drsquoeacuteleacutements agrave une structure en graphe

Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un

document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire

deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide

XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il

assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML

crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension

seacutemantique

RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C

pour la description des sources sur le Web Les descriptions se font en exprimant des

proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave

deacutefinir les termes et les relations qui interviennent dans ces descriptions

RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des

meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces

meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes

de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le

Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme

drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en

acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre

une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut

ecirctre reacutealiseacutee et faciliteacutee

Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces

concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des

ontologies

OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute

par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les

applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave

preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML

RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle

OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la

disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus

riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees

45

httpwwww3orgTRrdf-concepts 46

httpwwww3orgTRrdf-schema 47

httpwwww3orgTR2009WD-owl2-primer-20090611

45

OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL

OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une

hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou

taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des

constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux

tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes

de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de

restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes

mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique

de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider

au raisonnement sur une base de connaissances OWL Full permet un maximum

drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe

proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du

vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL

pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de

connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description

46

CHAPITRE 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

47

Chapitre 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47

2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50

23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53

32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70

4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86

1 INTRODUCTION

Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les

questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions

au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes

drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave

plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces

systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and

Kambhampati 2004)

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute

proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur

48

Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des

autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire

communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque

permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire

n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les

systegravemes (Sheth and Larson 1990)

Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune

base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les

applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement

directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)

Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration

drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes

sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont

accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des

sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de

requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources

disponibles

Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves

reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees

biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures

comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees

mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans

le mecircme temps

Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre

les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de

lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les

donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches

sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la

lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes

Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave

ecirctre exhaustifs

49

2 POINTS DE VARIATION ENTRE LES APPROCHES

DrsquoINTEGRATION

On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le

degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la

mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et

al 2004)

Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit

lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en

un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme

est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a

eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un

systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types

drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La

mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les

vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes

envoyeacutees au systegraveme

21 Degreacute drsquointeacutegration

Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement

appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere

approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema

inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche

agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources

de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une

transparence drsquointerface

211 Approche agrave couplage serreacute

Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de

lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul

emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema

peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit

conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des

requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme

drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas

50

des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des

deacutefinitions de regravegles (voir la sous-section 3213)

Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre

tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema

inteacutegrateur

212 Approche agrave couplage lacircche

Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du

systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter

lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les

utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre

accessibles pour des requecirctes

Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour

les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de

sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas

sont toujours visibles

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration

Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees

provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees

Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle

lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web

seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune

telle infrastructure

221 Modegravele de donneacutees du systegraveme drsquointeacutegration

Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le

modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un

scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les

donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas

drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour

acceacuteder aux sources de donneacutees

51

222 Types drsquointeacutegrations seacutemantique

Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas

drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres

systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants

Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun

point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique

comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les

communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration

verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati

2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la

communauteacute informatique)

Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une

correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme

drsquointeacutegration

Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la

preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux

drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche

drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier

des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique

ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire

le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees

seacutemantique

223 Approches ascendante et descendante

Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre

seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche

lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball

2002)

Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des

besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele

de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans

lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces

meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins

des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les

sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir

desquelles les donneacutees deacutecisionnelles sont extraites

52

Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les

donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle

construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-

automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour

deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode

considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la

source (List et al 2002)

23 Mateacuterialisation des reacutesultats

Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle

deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de

lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre

deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche

virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global

extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes

adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees

Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette

approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce

stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les

donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un

entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de

donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes

sources de donneacutees doit passer par des proceacutedures de mises agrave jour

24 Accegraves aux donneacutees

Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes

pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la

navigation speacutecialement dans les systegravemes baseacutees sur le Web

3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE

Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute

dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une

53

approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees

Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres

suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes

sources et combineacutees dans un scheacutema global

31 Approche non mateacuterialiseacutee

Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels

sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques

de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme

ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour

drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web

proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50

(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble

eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et

permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute

de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases

comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs

reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble

drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome

humain

Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types

drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees

biologiques le systegraveme meacutediateur et le systegraveme navigationnel

311 Le systegraveme meacutediateur

Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un

systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent

stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture

meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous

indiquerons dans cette section comment certaines approches meacutediateur sont directement

issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est

celle qui est la plus reacutepondue en informatique

48

httpwwwncbinlmnihgovsitesgquery 49

httpexpasyorg 50

httpsrsebiacuk

54

A) Deacutefinition et Architecture

Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose

une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes

pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et

homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes

Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est

central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un

vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit

une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche

lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de

faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de

lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont

calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver

une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique

logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte

poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions

des vues

Figure 1 Architecture dun systegraveme meacutediateur

55

Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme

drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans

leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui

lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon

distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via

des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en

terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source

B) Approches GAV LAV et GLAV

Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par

la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des

sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales

drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave

inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes

(GLAV) (Baader et al 2003)

Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour

lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave

inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont

deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette

approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance

Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du

scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de

donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit

que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee

par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois

deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources

de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se

ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement

effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de

nouvelles sources de donneacutees

La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est

geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources

ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels

que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le

scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par

51

Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes

56

exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute

ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global

Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications

consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T

a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)

Figure 2 Lapproche GAV (Global As View)

Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les

scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et

inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche

LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de

donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre

ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du

scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute

et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une

requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en

termes de vues est en effet bien plus complexe que dans une approche GAV Nous

renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle

Figure 3 Lapproche LAV (Loacl As View)

57

Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche

GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee

en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche

GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une

nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans

lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue

sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut

deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif

que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du

pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la

conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison

entre les trois approches

Figure 4 Approche GLAV

Table1 Comparaison des approches GAV LAV et GLAV

Approche Reacuteeacutecriture de requecircte mise-agrave-jour source

GAV facile difficile LAV difficile facile

GLAV difficile facile

C) Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix

des sources ce qui est autant plus important qursquoil a un grand nombre de sources

disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple

surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du

scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque

58

les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui

eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable

(2) Problegraveme rencontreacutes

Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les

donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune

source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes

Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les

reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au

niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement

supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se

fait directement au niveau des donneacutees centraliseacutees

Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur

sont

Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des

langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave

inteacutegrer et les requecirctes des utilisateurs

En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de

reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave

exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale

Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans

de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre

potentiellement redondantes Pour faire correspondre les instances entre elles il

faut suivre les techniques de lrsquoalignement (mappings en anglais)

D) Panorama des meacutediateurs existants en Bioinformatique

(1) K2Kleisli

Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute

deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave

avoir vu le jour en bioinformatique

Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus

expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection

Programming Language) (Hart et al 1994) En effet le langage CPL permet de

deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources

concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources

59

qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de

KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et

EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences

nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et

al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome

Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de

seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par

SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema

orienteacute objet

Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un

langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect

inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non

seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes

objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du

langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur

de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les

sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL

(2) TAMBIS

Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un

systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester

(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO

(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave

travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au

niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le

systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee

pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les

rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une

requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave

la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de

K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux

sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au

format HTML

TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec

OWL qui sont des langages plus expressifs

52

httpwwwncbinlmnihgovdbEST 53

httpgdbwwwgdborg

60

Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa

besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier

avec un langage de requecircte particulier

(3) DiscoveryLink

DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de

DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une

architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire

drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)

utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute

syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont

soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute

lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les

adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator

(Arenson 2003) mais fonctionne toujours selon le mecircme principe

(4) BACIIS

Le projet BACIIS (Biological And Chemical Information Integration System) est un

systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS

BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique

de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le

langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois

dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes

organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees

(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que

rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)

La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de

donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de

donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet

drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme

drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux

inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la

correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme

permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration

54

httpwwwalmadenibmcomcsgarlic

61

312 Le systegraveme navigationnel

Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche

drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris

Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet

de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave

construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques

sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes

sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont

transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle

permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les

sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte

peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations

A) Deacutefinition

Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes

mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec

des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires

telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins

et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)

Notons que compareacute au nombre important de sources de donneacutees actuellement

disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin

dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research

(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les

sources les plus importantes partagent des identifiants mais nombreuses sont celles plus

petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que

partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences

souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les

interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle

atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur

augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive

(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee

par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet

Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger

rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne

neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est

fait encore aujourdrsquohui manuellement

B) Exploitation des reacutefeacuterences croiseacutees

Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un

premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple

62

Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des

informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)

Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune

mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave

des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes

sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas

neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-

reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour

La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur

lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous

consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le

montre lrsquoexemple de la Figure 5

Figure 5 Exemple de partage de reacutefeacuterences entre les sources

Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans

lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero

drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en

gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)

Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les

mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la

reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct

55

httpwwwncbinlmnihgovomim 56

httpamigogeneontologyorgcgi-binamigogocgi

63

La Figure 6 illustre le graphe de liens existants entre les quatre sources pour

reacutepondre agrave la requecircte

Figure 6 Graphe de liens entre les sources

En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent

Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3

Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle

possegravede afin drsquointerroger Source1 et Source2

La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune

boucle apparaicirct dans le parcours des sources

Table 2 Les deux deacuteroulements possibles

Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date

Sceacutenario 1 Sceacutenario 2

Requecircte avec une date sur S1

Requecircte sur S2

Agrave partir de id2 tireacute de S1

Requecircte sur S3

Requecircte avec une date sur S3

Requecircte sur S1 et S2

A partir de id1 et id2 tireacutes de S3

64

Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs

chemins possible pour obtenir les donneacutees souhaiteacutees

Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur

simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure

apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de

la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire

La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle

nrsquoapporte aucune information suppleacutementaire

Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer

les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-

section suivante

C) Panorama des systegravemes navigationnels existants en Bioinformatique

Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de

plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour

le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins

traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont

eacutevalueacutes ces diffeacuterents chemins

(1) Le systegraveme SRS

SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par

lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and

Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par

LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques

de donneacutees (Zdobnov et al 2002)

SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme

drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de

description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And

Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est

drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les

donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index

sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche

drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un

entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees

Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en

mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et

57

httpwwwbiochipnetcomnode1561

65

donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et

beaucoup de banques speacutecialiseacutees

ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences

permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de

relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences

La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web

SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot

cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent

ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la

recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-

reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations

compleacutementaires contenues dans drsquoautres sources

Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques

pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des

sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une

mecircme requecircte

(2) Le systegraveme BioMediator

Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave

lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de

transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses

reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger

Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et

lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur

Le systegraveme BioMediator suit une conception modulaire composeacute de six composant

(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees

biologiques structureacutes et semi-structureacutees

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de

66

Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds

repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de

meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre

une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes

dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe

PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin

PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte

et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes

dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)

(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI

Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema

meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de

scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation

seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees

(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte

XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)

(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des

regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les

requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs

chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins

Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork

et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui

correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une

confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite

Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur

plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des

chemins possibles plutocirct qursquoune liste reacuteduite

(3) Le systegraveme BioNavigation

BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle

Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)

Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation

drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne

pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont

lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau

physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique

58

httpprotegestanfordedu 59

httpwwwxmlcompuba20030611qexohtml

67

ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces

entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)

Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes

entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la

construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les

citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute

lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo

BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une

requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur

des moyens pour eacutevaluer et optimiser les choix de chemins

Figure 8 Exemple de graphe dentiteacutes (Niveau logique)

Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction

du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps

drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and

Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour

reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs

paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans

BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et

sont classeacutes selon trois paramegravetres

68

La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un

chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)

ougrave e1 est une entreacutee de S1 et e2 de S2

La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale

Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution

locale et les deacutelais drsquoaccession aux sources

Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le

satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la

probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le

nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du

chemin le plus efficace en temps

(4) Le systegraveme BioGuide

Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche

navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des

utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet

BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils

bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus

drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine

biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils

et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces

graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y

seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type

de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et

des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous

la forme de chemins entre les sources Ces chemins sont construits en respectant les

preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix

Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la

preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins

geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute

drsquoutilisation

Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat

drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les

diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de

strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes

au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la

requecircte et iii) visitent une source donneacutee une seule fois

69

Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de

lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte

et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)

(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans

le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La

requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se

compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur

le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave

partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des

chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees

Figure 9 Architecture de BioGuide

Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler

ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de

strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou

les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide

ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand

nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees

divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)

70

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)

Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees

reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema

global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis

exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse

est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les

donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique

transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle

Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations

individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et

surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave

lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il

est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce

qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees

global

321 Deacutefinition et Architecture

A) Deacutefinition

Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit

lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non

volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest

pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se

caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)

Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes

Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet

et neacutecessaires aux besoins drsquoanalyse dans une structure unique

Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees

en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour

reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le

reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources

Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la

reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont

non volatile elles ne disparaissent pas apregraves les mises agrave jours

60

httpenwikipediaorgwikiBill_Inmon

71

Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont

permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct

consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent

Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les

valeurs particuliegraveres dans le temps

Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils

drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter

facilement les donneacutees

B) Architecture

Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en

deacutetaillant les diffeacuterentes couches qui le constituent

Figure 10 Architecture dun entrepocirct de donneacutees

Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et

heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data

Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes

depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line

Analytical Processing) (voir la sous-section 322)

Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)

syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend

les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la

hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees

fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-

72

Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui

repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations

concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur

structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct

Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes

vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)

lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux

structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees

inteacutegreacutees dans le systegraveme cible

Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et

une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant

logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape

drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans

un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de

donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme

logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees

neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par

source ou un middleware pour toutes les sources

73

Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees

Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave

effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct

de donneacutees Ce processus de transformation requiert la mise en correspondance

structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de

lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-

scheacutemas ou appariement de scheacutemas (schema matching)

Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent

du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est

interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de

scheacutema et de correspondance inter-scheacutemas

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute

S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et

G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents

types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un

eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison

drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs

(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles

(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel

74

Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes

qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les

critegraveres de classification suivants (Rahm and Bernstein 2001)

Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir

des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au

niveau du scheacutema

Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des

eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-

structures complexes de scheacutemas

Langage versus contrainte Les correspondances peuvent se baser sur des

approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute

de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)

Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la

relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre

scheacutema ceci menant agrave quatre cas 11 1n n1 nm

Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne

reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires

telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees

Il faut noter que certains algorithmes effectuent les correspondances en se basant

sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel

Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W

Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement

transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la

deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement

dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs

caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des

systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car

les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)

Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP

pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes

sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des

modifications freacutequentes et des volumes de donneacutees par transaction relativement faible

Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour

preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une

75

reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de

modification

Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont

qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est

reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes

sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser

une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de

grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus

complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas

correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux

de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est

entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil

contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de

chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de

lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une

alimentation reacutefleacutechie et planifieacutee dans le temps

324 Les modegraveles des entrepocircts de donneacutees

La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees

transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de

donneacutees repose sur un modegravele multidimensionnel de donneacutees

A) La modeacutelisation conceptuelle

La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association

(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)

en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de

nouvelles entiteacutes

De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave

comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation

E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute

(1) Concept de fait de dimension et de hieacuterarchie

Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse

des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que

lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur

fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction

tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees

76

en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62

Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors

qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble

drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs

Figure 13 Exemple de cube de donneacutees

Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les

attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une

dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes

relations drsquoordre entre ses attributs

Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois

dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps

Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la

proteacuteine

(2) Modegraveles en eacutetoile en flocon et en constellation

A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees

simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure

est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente

visuellement une eacutetoile on parle de modegravele en eacutetoile

61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres

correspondant aux formations faisant varier les mesures de lactiviteacute 62

Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63

Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail

77

Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce

scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions

autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute

eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions

Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la

modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la

modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de

dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et

al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions

Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au

sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la

normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball

2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des

dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend

plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema

augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte

Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en

trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en

quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo

Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui

utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs

faits et des dimensions communes (Benitez-Guerrero et al 2001)

B) La modeacutelisation logique

Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation

multidimensionnelle Il est possible dutiliser

un systegraveme de gestion de bases de donneacutees existant tels que les SGBD

relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)

un systegraveme de gestion de bases de donneacutees multidimensionnelles

(MOLAP)

Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de

bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line

Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere

suivante

Chaque fait correspond agrave une table appeleacute table de fait

Chaque dimension correspond agrave une table appeleacutee table de dimension

78

Figure 14 Modegravele en eacutetoile

Figure 15 modegravele en flocon

Figure 16 Modegravele en constellation

79

Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes

et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension

contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la

table de fait

Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de

lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel

se traduit ainsi

Chaque fait correspond agrave une classe appeleacutee classe de fait

Chaque dimension correspond agrave une classe appeleacutee classe de dimension

Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on

utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par

(Object Data Management Group) lrsquoODMG64

Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme

multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD

multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce

tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant

aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-

calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les

systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer

Les systegravemes MOLAP apparaissent comme une solution acceptable pour le

stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne

deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont

consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression

doivent ecirctre utiliseacutees

Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de

redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les

utiliseacutees sont

Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun

des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un

ensemble de faces diffeacuterents

Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune

dimension

Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune

repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble

64

wwwodmgorg

80

de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de

dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune

opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas

connu agrave lrsquoavance

C) La modeacutelisation de donneacutees XML multidimensionnelles

Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards

tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant

disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent

chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage

drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un

environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees

XML est de les convertir en donneacutees relationnelles Cependant mettre en place un

entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche

inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes

dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery

Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and

Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction

pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML

Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque

document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme

respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la

validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier

repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile

ou en flocons de neige

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing

81

La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave

lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel

multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute

en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette

approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur

leurs contenus

Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document

XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun

ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et

hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au

modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML

325 Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis

les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest

reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les

donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et

non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en

œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de

lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique

(Davidson et al 2001 Hernandez and Kambhampati 2004)

La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut

stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees

provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la

gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo

La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des

donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par

thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en

consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs

sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un

thegraveme

La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au

sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes

sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement

82

La transformation de donneacutees lors de lrsquointeacutegration Le processus de

transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de

reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration

verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce

processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de

reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema

La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles

localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees

provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte

(2) Problegravemes rencontreacutes

Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction

de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des

sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction

des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette

tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection

drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment

de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct

Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages

des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees

des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)

Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport

aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et

comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes

increacutementaux

Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car

les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations

ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches

drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique

A) GUS

Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand

entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS

est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les

maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux

proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support

pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et

83

lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour

stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative

2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al

2007)

Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts

(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et

annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de

nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et

dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il

possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat

drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des

donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS

chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de

regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale

B) GEDAW

Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees

deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des

eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de

Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse

des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees

dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves

disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de

GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches

biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees

inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie

GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees

structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology

UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de

correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme

instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent

ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences

renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)

ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est

incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut

lui aussi eacutemettre des regravegles de nettoyage des donneacutees

65

httpplasmodborgplasmo 66

httpwwwcbilupenneduepcondb42 67

httpwwwncbinlmnihgovprojectsSNP

84

Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les

scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-

mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de

deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de

transformer les structures des sources vers une forme canonique (le scheacutema global) Dans

le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour

identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres

pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des

informations

C) BioWarehouse

BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de

construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de

bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de

BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot

Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le

chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de

lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de

BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source

correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le

chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la

seacutemantique et du scheacutema global

Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un

fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des

donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations

drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas

freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation

drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir

de diffeacuterents modules

Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema

relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou

commerciales comme ORACLE

68

httpbiocycorg 69

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

85

D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques

biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene

UniProt GO InterPro KEGG et OMIM

Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema

global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic

Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les

donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales

que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source

comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le

systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le

reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu

dans le scheacutema GAM

GenMapper propose une interface conviviale de conception de requecircte ougrave

lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il

choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur

GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de

deacutepart

GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes

drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche

drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees

qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations

sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types

drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la

creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP

Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits

correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations

et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees

en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-

down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations

GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les

analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper

70

httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71

httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

86

est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees

sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare

4 DISCUSSION

Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la

recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes

drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee

Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les

donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les

rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle

au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix

en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32

fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans

un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les

donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs

propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees

inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche

permettant de lutter efficacement contre les donneacutees inconsistantes provenant de

diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands

volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la

conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes

drsquoanalyses ulteacuterieures

Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des

approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches

conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct

deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside

dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour

Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de

lrsquoaccessibiliteacute de ces sources externes

La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration

horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires

et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes

sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de

compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes

ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne

87

peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et

qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des

principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de

maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune

source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un

certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent

de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes

De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le

modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les

avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees

biologiques et avons dresseacute un panorama des solutions existantes en informatique en

montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques

88

Deacuteuxieacute meacute Partieacute

89

90

CHAPITRE 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp

91

Chapitre 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes

donneacute eacutes deacute Pseacuteudomonas sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91

2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101

31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101

32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102

33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107

34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113

36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117

5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123

1 INTRODUCTION

Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties

sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si

depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour

ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte

92

lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre

drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et

techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en

informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un

entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-

structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques

meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit

drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus

biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes

conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la

litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les

avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees

(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave

certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent

motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de

recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des

donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce

domaine font souvent appel agrave des traitements trop complexes pour tourner sur des

donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester

sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique

est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres

et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui

est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le

meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un

systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour

exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une

bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees

peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur

La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la

deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des

donneacutees

La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout

nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de

PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs

formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs

du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre

exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees

publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une

eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees

93

geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees

cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence

pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les

sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les

donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave

identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees

La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est

drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de

donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes

reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global

de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees

provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour

Respecter la fiabiliteacute de lrsquoinformation

Respecter la coheacuterence des informations une mecircme donneacutees pouvant

provenir de deux sources diffeacuterentes il faut alors choisir la plus

judicieuse

Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de

maniegravere unique une donneacutee

Unifier la repreacutesentation des donneacutees

Veacuterifier la non-redondance des informations

Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer

les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral

lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)

lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des

sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et

seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin

drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et

autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des

donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement

logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de

transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de

donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration

ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-

based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute

effectueacutee automatiquement en se basant sur quelques API (Application Programming

Interface) de java

94

2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW

Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est

un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de

lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees

inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies

Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema

inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et

meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui

nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)

Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un

environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de

construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation

souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave

lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans

les approches top-down les scheacutemas des sources importent peu pour la conception du

scheacutema global Ils seront seulement pris en compte dans un second temps quand les

correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour

permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema

global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne

connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir

PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-

up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema

telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus

drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les

donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en

assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La

combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples

permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus

cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements

cellulaire

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW

Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees

comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases

de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et

de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les

95

diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees

meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du

niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations

complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque

source de donneacutees sa provenance son contenu et sa structure

211 Bases de donneacutees geacutenomique et proteacuteique

PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du

gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une

collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de

donneacutees

GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee

comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont

publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al

2011) Cette base de donneacutees est produite au sein de NCBI (National Center for

Biotechnology Information) comme une partie de la collaboration internationale

des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal

Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs

reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de

380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre

des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines

avec la taxonomie le geacutenome le mappage la structure et les domaines

drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed

GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format

XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour

speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des

gegravenes et des seacutequences soumises

Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de

donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus

(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines

leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les

donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est

met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut

suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant

189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les

donneacutees en format HTML XML et Fasta

72

httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml

96

PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation

Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des

informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur

les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC

contient principalement des informations deacutetailleacutees sur les structures des opeacuterons

et des promoteurs y compris une eacutenorme collection des sites de liaisons et de

facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison

reacutegulateurs est disponible et une matrice du poids de position (position weight

matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la

litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave

plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du

serveur du PRODORIC par la technologie SOAP via le protocole HTTP en

utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit

eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux

utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs

propres programmes

212 Bases de donneacutees meacutetaboliques

KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme

humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est

consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique

(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux

moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les

informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de

donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions

(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus

respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers

chimique

Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies

(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus

cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du

SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui

facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique

Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure

drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes

(Kanehisa et al)

74

httpwwwprodoricde

97

213 Bases de donneacutees Enzymatique

PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees

enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la

collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles

agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme

une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et

deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique

de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites

directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en

biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des

programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est

veacuterifieacutee manuellement par au moins un biologiste et un chimiste

Le contenu de BRENDA couvre des informations sur la fonction la structure

loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des

donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et

lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que

laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des

caracteacuteristiques de la structure

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de

PseudmonasDW

Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont

plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la

litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction

drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative

Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-

hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave

aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on

parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)

que drsquoentrepocirct de donneacutees (ou data warehouse)

Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des

donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema

inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine

le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct

98

Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa

complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser

notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour

une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les

instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees

drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM

(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est

baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware

nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de

cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans

le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques

qui sont accessible via le web (Briache et al 2012)

Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de

donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment

impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de

lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de

lrsquoarchitecture du systegraveme

La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves

aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)

Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al

2003)

Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un

flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest

acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit

drsquoune technologie informatique intergicielle (comprendre middleware) permettant

drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une

autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees

dans les applications des transformateurs qui manipulent les donneacutees et des mises en

correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est

lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW

Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont

uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos

Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre

des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees

dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW

est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque

source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers

99

occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un

adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte

approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements

suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de

donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les

fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave

partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP

Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de

performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de

lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees

au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les

combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux

obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au

format HTML

Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par

lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation

qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees

Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des

services web Finalement le systegraveme transforme les donneacutees extraites en un format

commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser

une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le

scheacutema global par des regravegles de correspondances deacutefinies (mappings)

Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle

en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons

aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un

entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du

systegraveme est citeacute dans la section suivante

75

httpjenaapacheorg 76

httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77

httpexistsourceforgenet

100

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW

101

3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE

LrsquoENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans

cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de

plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)

le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees

drsquoorigine

En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon

deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les

donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par

SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme

un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration

seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du

PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source

et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement

agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une

description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW

31 Scheacutemas de source

La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW

constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude

deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour

deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons

creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont

consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les

sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes

102

de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale

sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA

32 Services de donneacutees

Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees

et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration

(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees

accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute

comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons

deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons

deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du

Web

Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs

en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent

ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation

de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au

protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des

103

applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un

modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et

srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un

service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de

meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les

services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes

et reacuteutilisables raquo

Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la

fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture

adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service

Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le

protocole Web raquo

321 Architecture du service de donneacutees dans PseudmonasDW

Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)

Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de

diffeacuterentes sources de donneacutees

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW

Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux

sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document

104

XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa

seacutemantique comme un service web La seacutemantique du service Web inclut des informations

sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans

le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de

donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de

service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application

Programming Interface)

LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois

meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document

XML La structure du ce document doit satisfait les contraintes du scheacutema de la source

Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux

meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema

XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur

la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)

Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux

diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant

geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au

service Web La partie importante de la classe Service est de tenir la correspondance entre

la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de

donneacutees Autrement dit la classe service est responsable de mettre des correspondances

entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees

322 Impleacutementation du service de donneacutees dans PseudmonasDW

Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache

Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter

le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous

les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le

fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du

service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute

webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service

78

httptomcatapacheorg 79

httpwsapacheorgaxisoverviewhtml

105

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web

La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier

deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des

proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement

ltservicegt (Figure 22)

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web

Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont

Lrsquoattribut name indique le nom du service web

Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute

pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider

106

Java RPC qui permet drsquoexposer une classe Java quelconque en tant que

service Web

Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements

ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes

Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la

classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le

chemin vers la classe java compileacutee associeacutee au service Web (nous referons

ici agrave la classe Service)

Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes

exposeacutees par le service Web La valeur speacuteciale indique que nous avons

exposeacutes toutes les meacutethodes du serveur Web

La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service

dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil

drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur

de deacuteploiement du service via la commande suivante

java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd

-httphostnameportnumberwebServiceFolderNameservicesAdminService

Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService

WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute

effectueacutee par la saisie de la direction lsquohttphostnameportnumber

webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis

drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement

107

33 Scheacutema Inteacutegrateur du PseudmonasDW

Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de

sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche

deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de

lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les

donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute

effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des

sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct

est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des

informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune

redondance au niveau du scheacutema inteacutegrateur

Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des

informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour

identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons

appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du

scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema

global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

laquo Le scheacutema global correspond agrave la description des relations entre toutes les

donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de

leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo

(King et al 2008)

En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la

deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel

modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre

exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW

Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la

reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

(Figure 24)

108

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW

Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un

scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une

interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une

ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema

conceptuel

Une ontologie de domaine est une laquo description intentionnelle de ce qui nous

connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des

concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine

de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre

domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses

caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une

terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure

lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts

Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees

par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui

modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel

simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui

repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les

proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie

109

peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la

cateacutegorie des concepts relieacutes aux sources de donneacutees

Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les

entiteacutes biologiques (par exemple les classes gene genome protein

enzymehellip)

Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes

reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple

le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans

lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de

donneacutees originales Ce type de concept a un rocircle tregraves important pour garder

les traces de donneacutees dans PseudmonasDW

Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de

proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les

individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype

properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de

PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes

des objets

Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au

niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les

eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des

objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees

Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur

drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation

speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code

pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate

(Roychoudhury et al 1992)

Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase

sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo

algU reacutegule le gegravene algD

Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes

abreacuteviations que leurs gegravenes

Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif

Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132

110

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)

A partir de cet exemple nous pouvons deacuteduire

Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo

Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux

concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo

Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts

lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo

pour le concept lsquoEnzymersquo

Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du

concept lsquoProteinrsquo

Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie

standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de

OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de

domaine qui preacutesente une simple hieacuterarchie des concepts

34 Correspondances seacutemantiques entre les scheacutemas

En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin

drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements

approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de

ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une

111

des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees

(Toumani et al 2007)

Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As

View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des

sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente

une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue

deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de

donneacutees

Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de

sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de

correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de

donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que

nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA

P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath

Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie

En geacuteneacuterale nous avons deacutefinie trois types de mappings

112

Mapping des Classes ce type de mappings deacutefinie des associations entre les

classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere

suivante

XPath-Element-Location Ontology-Class-Name correspondence-

index

Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement

du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo

repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie

lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine

la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave

100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de

mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema

du BRENDA

ResultEnzymeEnzyme100

ResultEnzymeFunctional_ParameterKMKM100

Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les

proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il

srsquoeacutecrie comme suit

XPath-Domain-Location XPath-value-Location Ontology-Domain-

Name Property-Name correspondence-index

Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du

scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment

lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son

rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent

respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la

proprieacuteteacute de type de donneacutees lsquohasValuersquo

ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional

_ParameterKMKM_ValueKMhasValue100

ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu

nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal

ue100

Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes

drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere

suivante

113

XPath-Domain-Location XPath-Range-Location Ontology-Domain-

Name Ontology-Range-Name Property-Name correspondence-index

Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo

deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la

proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo

et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau

de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet

Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee

au scheacutema de source

ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti

onal_ParameterhasFunctionalParameter100

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web

Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des

infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de

programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application

distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour

mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter

tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains

drsquoentre eux

Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par

le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration

de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est

baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic

Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de

base pour construire des applications de Web seacutemantique il est disponible en tant que

serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour

consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)

Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le

meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire

seacutemantique (Semantic Directory)

Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et

al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure

27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO

est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les

relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV

114

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core

Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum

des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique

Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents

types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core

Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware

pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)

getOntology( url) listOntologies() and listOntologies(concept)

Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies

enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les

impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les

correspondances (mappings) entre le scheacutema de cette ressource et les ontologies

enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux

utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(

serviceName url queryMethod schemaMethod))

Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface

drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies

Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux

diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos

services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a

permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre

disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et

115

solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de

deacutetail dans la section 36)

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM

36 SB-KOM System Biology Khaos Ontology-based Mediator

Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un

systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute

SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes

2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a

eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des

sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est

composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et

lrsquoeacutevaluateurinteacutegrateur

Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et

coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des

116

reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et

assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes

provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats

conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en

terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type

de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient

les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de

domaine

Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des

plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans

geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees

pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees

Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il

y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de

domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des

scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees

seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme

correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath

sont actives dans la proprieacuteteacute

Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte

conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de

concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres

Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous

1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux

groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats

ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux

arguments (les proprieacuteteacutes)

2 Construire GS un ensemble de combinaisons entre les deux groupes en se

basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave

cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes

3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les

mapping enregistreacutees au niveau de SD-Core

4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les

arguments preacutedicats

a La variable instancieacutee constitue le nœud racine

b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour

la variable instancieacutee et les eacuteleacutements qui ne contiennent que la

variable instancieacutee (sans les autres variables) seront passeacutes au nœud

courant et eacutelimineacutes de GS

117

c Les eacuteleacutements qui contiennent une autre variable en plus de celle

instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres

nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees

seront repreacutesenteacutes par drsquoautres variables qui seront des variables

instancieacutees

d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour

chaque nouvelle variable instancieacutee

LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de

requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes

dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de

lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans

lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees

souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit

des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant

les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de

services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie

des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de

domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de

requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations

inutiles

4 PROCESSUS ETL DANS PSEUDOMONASDW

Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer

comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus

drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise

par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive

suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct

Ans(PEOGPW)-

Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym

e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)

ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn

(PPW)

Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee

lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un

organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de

cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies

118

meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des

donneacutees sur le gegravene qui code pour elle

Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en

terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de

donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P

Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient

les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de

cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de

donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism

IsEnzyme CodedBy et ParticipateIn) (Figure 29)

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge

La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et

qui sont relieacutees aux

Organism par le biais de la relation ForOrganism

Pathway par la relation ParticipateIn

Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi

agrave la classe Organism par la relation ForOrganism

Gene par la relation CodedBy

Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une

fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au

planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la

119

requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique

lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan

drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un

ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les

preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et

appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par

la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par

le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes

possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3

A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire

des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables

instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux

variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave

exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave

lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut

pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend

Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe

agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la

proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils

deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees

lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations

ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus

lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend

au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees

120

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte

Groupe Sous-requecircte Service de Donneacutees

G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA

Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors

que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque

nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes

par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-

requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave

lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter

Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant

Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour

notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la

proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le

nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de

classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques

dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-

requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de

donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee

avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher

les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce

que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le

service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)

parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG

Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments

(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes

lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo

A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees

extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des

instances des scheacutemas XML des sources sous-jacentes Le composant

Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles

121

de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine

enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de

domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles

sont produites de services de donneacutees diffeacuterents Afin de les associer

lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au

niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de

domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant

EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat

obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees

extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est

automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java

(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-

db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees

XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de

donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW

122

Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL

(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees

souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les

services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la

transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les

instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer

dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La

derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a

permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif

(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein

de PseudmonasDW

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

123

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

5 DISCUSSION ET CONCLUSION

Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels

du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en

bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et

donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui

caracteacuterisent les donneacutees biologiques

Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et

analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon

doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus

quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont

pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques

caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique

De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus

complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de

processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute

La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie

par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel

environnement

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de

Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de

multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement

drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et

reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes

124

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes

Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour

extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs

forment une partie importante dans les services de donneacutees qui fournissent des moyens

pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de

donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une

interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les

donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM

Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous

somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui

offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De

cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance

(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema

inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de

domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts

et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de

lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement

aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees

dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques

bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration

seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs

avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement

stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre

part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le

meacutediateur

Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que

leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se

distingue des autres sur diffeacuterents points

125

Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une

diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de

connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique

et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des

donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de

GO

Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement

adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique

appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans

PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema

global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema

afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une

modification profonde du scheacutema

Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des

sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des

donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas

la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la

non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute

Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation

Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne

maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans

PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local

dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

126

CHAPITRE 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp

127

Chapitre 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes

Pseacuteudomonas Sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163

1 INTRODUCTION

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces

bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de

certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee

par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et

chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute

de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de

Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique

128

Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de

donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme

Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI

Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82

National Center for Biotechnology Information (NCBI) Microbial Genomes83

(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de

donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques

sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne

pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que

Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site

Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune

grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent

sur le suivi des changements des annotations et de permettre leur comparaison entre les

espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part

Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees

fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de

donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et

fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais

manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les

voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas

la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees

qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas

aeruginosa PAO1

Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le

chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui

regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece

de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour

une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase

de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les

acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique

aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de

PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires

concernant les espegraveces de Pseudomonas

80

httpimgjgidoegov 81

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82

httpwwwxbaseacuk 83

httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84

httpwwwmicrobesonlineorg 85

httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86

httpwwwpseudomonas-syringaeorg 87

httpwwwpseudomonascom

129

2 MODEacuteLISATION DE PSEUDOMONASDW

Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il

est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de

passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les

proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle

dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de

nombreux choix qui auront des reacutepercussions importantes dans la suite

La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux

drsquoabstraction diffeacuterents

Modegravele conceptuel repreacutesente le contenu de la base en termes

conceptuels indeacutependamment de toute consideacuteration informatique

Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un

scheacutema propre agrave un type de base de donneacutees

Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et

drsquoaccegraves aux donneacutees de la base

La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des

systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins

des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle

consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux

domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains

aspects des systegravemes physiques ou humains et de leur environnement

Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee

gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling

Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et

son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques

et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur

lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par

ce langage pour la conception de PseudomonasDW

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW

Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de

PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une

88

Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage

130

fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle

joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)

et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun

utilisateur exteacuterieur le voit

Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur

(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le

biologiste)

Table4 La liste des acteurs

Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via

lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies

par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit

Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en

introduisant son URL

Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des

mots cleacutes via son interface web

Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en

utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme

a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)

Table5 les cas drsquoutilisation de lrsquoutilisateur

Acteur Cas drsquoutilisation

Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet

PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web

Administrateur Le superviseur du systegraveme

Cas drsquoutilisation

Etablissement drsquoune connexion avec le systegraveme

Interrogation du systegraveme

Analyse de donneacutees

131

b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)

Figure 33 Le diagramme de cas dutilisation de lutilisateur

PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees

stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du

PseudomonasDW sont comme suit

Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par

lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du

systegraveme

Construction du reacutesultat

Translation du reacutesultat en un format lisible par lrsquoutilisateur

a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)

Table 6 les cas drsquoutilisation de PseudomonasDW

Cas drsquoutilisation

Translation de la requecircte

Construction du reacutesultat

Translation du reacutesultat

132

b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW

Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer

nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser

lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent

le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit

Inteacutegration de donneacutees au sein de PseudomonasDW

Nettoyage de donneacutees en eacuteliminant les redondances

Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de

donneacutees en fonction des sources originales

Maintenance de lrsquoentrepocirct de donneacutees

Maintenance de lrsquointerface Web

Ajout des fonctionnaliteacutes en cas de besoin

a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)

Table 7 les cas drsquoutilisation de lrsquoadministrateur

Cas drsquoutilisation

Inteacutegration de donneacutees

Nettoyage de donneacutees

Mise agrave jour de donneacutees

Maintenance de PseudomonasDW

Maintenance de lrsquointerface Web

Ajout de fonctionnaliteacutes

133

b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)

Figure 35 Le diagramme de cas dutilisation de ladministrateur

22 Diagrammes de seacutequence du systegraveme PseudomonasDW

Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets

selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects

dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes

sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute

drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du

Siemens Pattern Group (Buschmann et al 1996)

Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des

messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW

(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les

diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son

reacutecepteur

134

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur

Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de

PseudomonsDW

message eacutemetteur reacutecepteur

1 Demande de connexion Utilisateur Web app

2 Etablissement de connexion Web app Utilisateur

3 Envoi de requecircte via des formulaires HTML Utilisateur Web app

4 Reacuteception de requecircte Web app Web app

5 Geacuteneacuteration de requecircte XQuery Web app Web app

6 Envoi de la requecircte XQuery Web app PDW DB

7 Interrogation des indexes PDW DB PDW DB

8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB

9 Construction de reacutesultat XML PDW DB PDW DB

10 Transformation de reacutesultat de XML en XHTML PDW DB Web app

11 Affichage de reacutesultat en forma XHTML Web app Utilisateur

135

23 Diagramme de classes du systegraveme PseudomonasDW

Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la

modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les

composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des

eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations

Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les

diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de

la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir

les diffeacuterentes classes et relations composant notre diagramme de classe

Le diagramme de classe de PseudomonasDW est constitueacute de six classes

principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)

auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de

raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous

a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses

diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des

bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes

en trois sections la section supeacuterieure contient le nom de la classe la section centrale

deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les

diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation

qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui

sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de

composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base

3 IMPLEMENTATION DE PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese

est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de

Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les

applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources

multiples

Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre

diviseacutes en deux familles (Mahboubi et al 2009)

La premiegravere famille propose une modeacutelisation multidimensionnelle pour les

entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en

eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des

dimensions et offrent un support pour des outils danalyse

136

Les approches de la seconde famille abordent la probleacutematique de lentreposage de

documents XML Elles perccediloivent un entrepocirct XML comme une collection de

documents XML

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous

sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les

donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML

Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML

Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des

documents XML obtenus de la transformation des instances RDF au niveau de notre

entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons

donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases

de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees

XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)

31 Organisation des bases de donneacutees de PseudomonasDW

Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du

genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base

de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection

des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees

selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des

scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce

modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de

lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de

PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons

nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo

137

Figure 37 Le diagramme conceptuel de PseudomonasDW

138

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW

Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees

Genomes complets

Pseudomonas aeruginosa PAO1 6264404 5682 5556

Pseudomonas aeruginosa M18 6327754 5764 5684

Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269

Pseudomonas aeruginosa LESB58 6601757 6061 5908

Pseudomonas aeruginosa PA7 6588339 6369 6246

Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886

Pseudomonas fluorescens PfO-1 6438405 5829 5714

Pseudomonas fluorescens Pf-5 7074893 6233 6137

Pseudomonas fluorescens SBW25 6722539 6106 5921

Pseudomonas fluorescens F113 6845832 5953 5862

Pseudomonas putida F1 5959964 5403 5245

Pseudomonas putida GB-1 6078430 5529 5408

Pseudomonas putida KT2440 6181863 5516 5350

Pseudomonas putida W619 5774330 5309 5182

Pseudomonas putida BIRD-1 5731541 5046 4960

Pseudomonas putida S16 5984790 5307 5171

Pseudomonas syringae pvphaseolicola 6112448 5437 5172

Pseudomonas syringae pvtomato 6397126 5688 5481

Pseudomonas syringae pvsyringae 6093698 5220 5089

Pseudomonas stutzeri A1501 4567418 4210 4128

Pseudomonas stutzeri DSM 4166 4689946 4372 4301

Pseudomonas stutzeri ATCC 17588 4547930 4287 4181

Pseudomonas entomophila L48 5888780 5275 5134

Pseudomonas mendocina ymp 5072807 4704 4594

Pseudomonas mendocina NK-01 5434353 5035 4954

Pseudomonas brassicacearum NFM421 6843248 6176 6081

Pseudomonas fulva 12-X 4920769 4540 4459

Genomes incomplets

Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207

Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905

Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221

Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096

Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402

Pseudomonas chlororaphis - - 218

Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts

(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie

meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements

figureacutes directement apregraves lrsquoeacuteleacutement racine

Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur

organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees

correspondante

Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au

gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee

Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees

sous lrsquoeacuteleacutement laquoProteinDataraquo

139

Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans

PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte

deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes

Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les

diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans

lrsquoentreacutee

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1

32 Impleacutementation des bases de donneacutees de PseudomonasDW

En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees

sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML

deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la

version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome

qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute

Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des

servlets pour lrsquoaccegraves distant

89

httpjettycodehausorgjetty

140

La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de

charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents

XML dans 33 collections une collection pour chaque espegravece entreposeacute dans

PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre

application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery

Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de

fonctions de XQuery

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW

90

XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML

141

4 INTERFACE WEB DE PSEUDOMONASDW

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

41 Les Moteurs de rechercheacute dans PseudomonasDW

Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des

moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees

XML natives

Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les

pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur

quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute

qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de

recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de

recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas

parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu

laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ

speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-

down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la

proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave

minimiser le temps et la complexiteacute de la recherche

Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la

possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce

formulaire de recherche ou moteur de recherche propose des champs de recherche

multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de

Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein

Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons

aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs

espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la

possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees

Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant

de 1 agrave 33

142

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche

143

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute

144

Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue

nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave

quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de

donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML

et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues

HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a

eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et

convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de

PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans

quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis

Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML

Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta

Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3

42 Les entreacutees de Pseudomonas DW

Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq

sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la

section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont

listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune

section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de

PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee

dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails

des cinq sections

La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces

informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la

langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant

pour les proteacuteines et les ARN

La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en

question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom

scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les

diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la

seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de

transcriptions les sites de liaison et les sites de mutations ou de modification Cette section

offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du

gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A

partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage

145

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524

146

La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle

contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui

permet un affichage et une lecture tregraves simple Les informations de cette section sont

repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la

proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et

lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes

caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les

reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que

la seacutequence peptidique de la proteacuteine

La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine

deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission

numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees

enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions

catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats

et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des

informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des

informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des

paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo

La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans

lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement

propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de

donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)

lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie

meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique

preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les

composants et les modules de la voie meacutetabolique

Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les

entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou

lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo

deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas

(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis

Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la

proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la

retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la

proteacuteine dans des voies meacutetaboliques

147

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW

Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees

biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types

Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees

bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper

ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant

Ces outils doivent donc ecirctre

Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet

Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs

Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre

de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre

obligeacute de jongler avec diffeacuterentes sources dinformations

Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des

biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les

premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les

deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la

visualisation des annotations associeacutees Cette classification est toutefois quelque peu

scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de

donneacutees outils dinterrogation et outils de navigation sur le geacutenome

Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation

aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes

agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique

quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce

manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et

inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre

outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires

entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces

stockeacutees dans PseudomonasDW

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)

Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas

facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs

points forts et plusieurs faiblesses

91

DataBank browsers 92

Genome browsers

148

Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente

la meilleure application pour la geacutenomique comparative mais dautre part un autre

navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec

beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de

deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et

qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest

pas aussi riche que Ensembl

Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux

besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave

Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen

attentif

Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur

geacutenomique pour PseudomonasDW

Ensembl est toute une application libre de droit dauteur sur son code source

qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le

neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute

et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse

ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et

la deacutecouverte et la reacutesolution de bugs plus difficile

Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des

avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute

que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le

fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans

le site Web Or la plupart des bases et banques de donneacutees geacutenomiques

existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme

navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs

utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le

trouveront plus aiseacute agrave manipuler

Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur

geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des

geacutenomes en plus de la rapiditeacute qui est indispensable

Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs

geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux

autres navigateurs (Sen et al 2010)

93

httpgmodorgwikiGBrowse

149

511 GBrowse Vue geacuteneacuterale

GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui

correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de

donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord

speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des

subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut

national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License

(ou GPL)

GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation

graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres

eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives

comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave

ADN GBrowse propose les fonctionnaliteacutes suivantes

vue globale et vue deacutetailleacutee du geacutenome

deacutefilement zoom et centrage

utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien

personnaliseacutees

joindre une URL arbitraire agrave une annotation

ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur

final

recherche par ID annotation nom ou commentaire

connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95

support multi-langues

prise en charge des annotations agrave partir du format GFF96

persistance des paramegravetres de session agrave session

plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de

nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des

cartes de restriction eacutediter des fonctions)

512 Installation de GBrowse

Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous

avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite

lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons

eu besoin drsquoinstaller

94

httpwwwbiosqlorgwikiMain_Page 95

httpgmodorgwikiChado_-_Getting_Started 96

httpgmodorgwikiGFF

150

Apache Web Server97

Perl 598

Les modules de Perl suivants

o GCI

o GD

o DBI

o DBD mysql

o Digest MD5

o Text shellwords

Bioperl99

Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi

drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une

installation automatique de GBrowse

adminadmin~$ sudo apt-get install gbrowse gbrowse-calign

gbrowse-data

La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les

donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de

gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec

sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape

drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des

adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature

que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD

le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est

le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations

au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer

la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB

SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le

plus reacutecent des adaptateurs et le plus recommandeacute

513 Creacuteation et peuplement des bases de donneacutees MySQL

Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une

eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par

PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque

chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees

relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce

97

httphttpdapacheorg 98

httpdevperlorgperl5 99

httpwwwbioperlorgwikiMain_Page

151

contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la

banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos

besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers

GFF3

La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de

donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait

la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans

PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees

pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees

MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par

lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse

adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn

dbimysqlDB_Name --user root --password

varlibgbrowsedatabasesfilegff3

La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles

soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de

fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la

forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de

GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui

152

srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le

paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de

configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi

nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour

donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante

Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse

nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un

onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave

lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil

GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage

reacutesultante

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011

153

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW

521 Blast Vue geacuteneacuterale

Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences

(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une

seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme

dun package composeacute des programmes suivants

blastn blast nucleacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques

blastp blast proteacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

proteacuteiques

blastx blast nucleacuteique vs proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

proteacuteiques

tblastn blast proteacuteique vs nucleacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

nucleacuteiques

tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences

nucleacuteiques

Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse

comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir

teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une

base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme

lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle

base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA

Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais

son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct

de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees

proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute

une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette

application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de

le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web

154

522 La fonctionnaliteacute du Blast

Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les

seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la

page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de

PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans

PseudomonasDW

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW

La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la

possibiliteacute de PrimeblasterPrime ses seacutequences contre

Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences

(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences

agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees

comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le

choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la

partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses

extreacutemiteacutes

Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire

de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette

155

option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des

bases de donneacutees stockeacutees au niveau de PseudomonasDW

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW

156

Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java

lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en

extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le

sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs

drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi

deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement

une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui

sera retourneacutee agrave lrsquoutilisateur via son navigateur Web

Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral

Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme

de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une

petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine

lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes

seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession

dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les

scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en

deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage

drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement

obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple

drsquoalignement

157

Figure50 Exemple de reacutesultat de Blast

6 PDWiki

Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons

deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de

donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des

informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies

meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts

diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive

Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les

Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous

introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa

maniegravere drsquoaccegraves

158

61 Geacuteneacuteraliteacute sur les Wikis biologiques

Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat

sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web

sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre

simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun

navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est

maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des

donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis

biologiques (bio-wikis) comprennent

Le deacuteveloppement collaboratif et le partage des connaissances

Lrsquoannotation collaborative de contenus de bases de donneacutees

La creacuteation collaborative de contenus de bases de donneacutees

Le deacuteveloppement collaboratif et le partage de la documentation et des

connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un

consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des

nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de

conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont

geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de

recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets

biologiques speacutecialiseacutes

Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait

que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement

coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de

donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux

utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats

indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler

cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien

que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de

donneacutees elles-mecircmes restent inchangeacutees

La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans

les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de

donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement

deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums

et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite

100

httpwwwwikipediaorg

159

62 PDWiki Infrastructure et contenue

PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki

baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et

correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des

extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de

diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104

automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de

MediaWiki

MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de

nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen

des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une

bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de

MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le

principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des

bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de

lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La

classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees

de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe

lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo

est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure

geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec

PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle

elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo

PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de

PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le

premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations

suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour

chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de

plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas

limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et

lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus

La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee

correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans

PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le

101

httpwwwmediawikiorgwikiMediaWiki 102

httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103

httpwwwmediawikiorgwikiExtension_Matrix 104

httpenwikipediaorgwikiWikipediaBots 105

httpjwbfsourceforgenet

160

nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans

PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas

modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir

PseudmonasDW

La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle

appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece

Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page

speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations

suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom

de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au

moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo

La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque

espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page

lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est

conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW

Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les

utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par

lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils

peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces

informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les

interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie

de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les

sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies

meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs

peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des

reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les

activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier

les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des

informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents

composants dans la section lsquoPathwaysrsquo

Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources

dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et

contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee

161

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW

lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils

contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo

162

pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la

page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease

alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des

gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)

lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation

ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de

certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une

liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de

cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene

Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo

Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie

meacutetabolique apparaissant dans une page lsquoPDWEPrsquo

63 Comment naviguer dans PDWiki

Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la

recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des

pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur

163

gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct

sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est

de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de

recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les

pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au

sein de PDWiki en utilisant le formulaire de recherche

Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque

espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave

une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre

PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible

daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa

Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire

de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple

et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a

plusieurs avantages certains dentre eux sont

Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo

quand quelquun fait des modifications au niveau des pages de PDWiki

Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et

une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres

utilisateurs

Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages

qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106

7 DISCUSSION

Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes

modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm

2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves

Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de

Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans

cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base

de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des

bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire

agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur

lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les

plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de

106

httpwwwmediawikiorgwikiManualWatchlist

164

Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en

comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees

PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees

laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre

pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines

interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait

ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base

de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee

eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de

PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des

informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees

aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de

PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies

meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des

informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c

oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation

oxydative et la voie meacutetaboliques

Dautre part PseudomonasDW fournit des informations sur un ensemble plus

vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux

ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces

sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas

aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1

Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM

4166 et Pseudomonas chlororaphis

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

165

CONCLUSIONS ET PERSPECTIVES

166

Conclusions eacutet peacuterspeacutectiveacutes

Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante

bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3

comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon

rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur

mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile

et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P

syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain

Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des

infections pulmonaires mortelles chez les patients atteints de fibrose kystique

Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la

recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes

geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations

Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une

heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont

actuellement disponibles publiquement les types de donneacutees sont divers et les ressources

sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent

une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour

deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour

deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des

formats plus standard tels que XML (eg GenBank) A noter que les banques proposent

souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats

est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)

objet (eg Gus) ou semindashstructureacute (eg GenBank)

Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier

lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-

Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la

proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de

deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la

167

confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une

mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque

Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les

langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)

dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des

langages structureacutes tels que SQL (Genopage) ou OQL (Gus)

La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations

lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible

leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la

bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources

de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette

automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine

pour une recherche plus efficace des informations et une meilleure exploitation des

reacutesultats

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute

proposeacutees les approches navigationnel entrepocirct et meacutediateur

Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont

extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les

deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des

sources ce sont des portails et des meacutediateurs

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement

les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

168

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement

inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le

cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe

KHAOS de lrsquouniversiteacute de Malage

Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de

donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les

sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent

autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees

biologiques

Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des

sources de donneacutees biologiques et comportent une description des divers niveaux

drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des

solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme

navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine

entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une

inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine

biologique afin de proposer une solution drsquointeacutegration simple et flexible

Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre

des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin

drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee

1 REacuteSUMEacute DES CONTRIBUTIONS

Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne

fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur

exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se

sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent

169

principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que

possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers

et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos

travaux concernent plusieurs points

Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees

biologiques de Pseudomonas Sp

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas

requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de

donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi

proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees

heacuteteacuterogegravenes

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW

integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq

sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot

BRENDA et KEGG

Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les

donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie

importante dans les services de donneacutees qui fournissent des moyens pour interroger et

correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le

processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des

requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les

transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services

de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees

Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce

manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine

de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute

utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de

donneacutees un service pour une source de donneacutees

PseudomonasDW integravegre des sources de donneacutees offrant des informations

chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets

170

eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique

pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration

seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global

inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un

scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous

les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global

de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare

citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle

sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les

sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau

de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune

modification profonde

Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le

meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute

notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a

joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM

Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation

preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances

permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances

retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation

automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de

donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part

les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une

interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees

sont virtuellement acheveacutees en utilisant le meacutediateur

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

171

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune

installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave

certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige

une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse

surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la

plateforme Linux

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes

baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents

XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui

contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents

XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement

(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33

collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

172

Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques

pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons

incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il

affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des

gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est

un programme permettant de reacutealiser des alignements et des comparaisons locaux entre

deux seacutequences (nucleacuteiques ou proteacuteiques)

PseudomonasDW contient 170000 entreacutes et fournit des informations sur un

ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave

10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome

database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa

NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244

Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC

17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis

La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les

voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies

et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des

sections speacutecifiques pour les enzymes et les voies meacutetaboliques

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

2 OUVERTURE ET PISTES DE RECHERCHE

La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave

disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves

nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension

anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre

deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant

Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et

consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette

thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs

173

Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous

focalisant sur plusieurs points particuliers

Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW

Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance

accordeacutee agrave la source et sa qualiteacute estimeacutee

Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la

performance des donneacutees stockeacutees au niveau de PseudomonasDW

Automatiser la recherche de correspondance entre eacuteleacutements des

scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour

rendre lrsquoajout des nouvelles sources de donneacutees plus facile

Concernant lrsquointeacutegration des donneacutees

Inteacutegrer non seulement des sources de donneacutees mais aussi des services

Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres

anneacutees dans le domaine biologique et les perspectives offertes

semblent tregraves prometteuses

Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de

preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour

fouiller et comparer les donneacutees inteacutegreacutees

174

GLOSSAIRE

175

Glossaireacute

Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois

nucleacuteotides (codons) dans lrsquoARN

ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation

geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le

chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN

macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des

chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement

(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN

formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se

dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du

pheacutenomegravene de reacuteplication

Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions

hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus

complexe

Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences

codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation

syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les

entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit

les sources de donneacutees biologiques

API (Application Programming Interface) Interface pour langages de programmation

mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme

pour par exemple communiquer ou extraire des donneacutees

ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de

ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une

seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de

transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques

Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences

comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour

deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions

drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui

permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des

proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes

Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non

Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule

drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune

hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les

cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion

176

agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la

division cellulaire

Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros

serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et

unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture

est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees

Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte

deacutecisionnel deacutecentraliseacute

Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de

donneacutees exemple dimension temporelle dimension proteacuteique hellip

Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur

conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme

moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs

du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur

DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par

Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document

SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu

constitueacute par leurs sous-eacuteleacutements et leurs attributs

Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les

organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est

fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype

Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le

geacutenome nucleacuteaire

Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central

de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines

notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes

de reacutegulation

Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee

numeacuterique

FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et

William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le

programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines

Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et

porteur drsquoune information geacuteneacutetique

Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece

Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties

drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome

177

GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et

distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix

HTML (HyperText Markup Language) Langage de description de pages Web Un standard

initieacute par le W3C et compatible tous systegravemes

Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes

Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement

diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble

Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN

correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation

Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position

choisie)

Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme

drsquoun scheacutema de donneacutees

MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant

une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui

explique les performances Dans le second les jointures entre les tables de dimension et de fait sont

effectueacutees au moment de la requecircte

OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place

drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une

cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs

dimensions

Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin

OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de

lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant

Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave

linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le

deacuteclenchement de la transcription) et un ou plusieurs gegravenes

OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par

lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et

collections

Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports

baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration

systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau

(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de

maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec

celui-ci

178

Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique

(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique

notamment Un comportement particulier tout comme une combinaison de comportements

peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou

plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes

et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un

caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou

moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement

deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son

alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse

existe eacutegalement)

Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui

apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations

auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul

Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique

Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave

30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent

des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=

le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour

assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de

lrsquoinformation

Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une

comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un

support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou

ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees

compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus

ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit

syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le

type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et

quantifieacutes

Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser

les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le

principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave

CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot

contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN

tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-

repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du

meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De

maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment

correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de

caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents

dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des

suppresseurs de tumeurs

179

Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir

du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un

support meacutetallique et analyseacutees par spectromeacutetrie de masse

ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de

lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles

Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc

sous une forme plus deacutetailleacutee

Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe

concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine

informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des

informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux

neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies

Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides

amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN

(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage

drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit

fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes

Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie

par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides

(polymegraveres de nucleacuteotides)

Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet

indeacutependamment des plates-formes et des langages sur lesquelles elles reposent

SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels

permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du

domaine drsquoapplication

Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier

des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de

masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe

reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport

massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines

scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages

biologie meacutedecine

SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de

programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans

des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut

extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de

donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus

complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de

180

modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de

donneacutees et daccegraves

Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance

lrsquoidentification des formes vivantes et leur rangement dans une classification

Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome

URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur

uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant

lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour

adresser les ressources du World Wide Web telles que des documents HTML des images ou des

sons

Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet

Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct

et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux

ordinateurs et aux humains de travailler en plus eacutetroite collaboration

XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et

de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications

en diffeacuterents environnements hardware et software

Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements

dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un

sur-ensemble de XPath

181

ANNEXES

182

Anneacutexeacute 1 UML

La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996

UML est une norme de lOMG (Object Management Group) qui est un consortium des

principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive

homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune

seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants

UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent

ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre

UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des

systegravemes informatiques

Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur

Modegravele des classes capture la structure statique

Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages

Modegravele des eacutetats exprime le comportement dynamique des objets

Modegravele de deacuteploiement preacutecise la reacutepartition des processus

Modegravele de reacutealisation montre les uniteacutes de travail

Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant

correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de

diagrammes

Diagramme des classes structure statique il repreacutesente les classes

intervenant dans le systegraveme

Diagramme des eacutetatstransitions comportement dune classe en termes

deacutetats

Diagramme dobjets repreacutesentation des objets (des occurrences des

classes) et de leur relations ils correspondent agrave des diagrammes de

collaboration simplifieacutes (sans envoi de message)

183

Diagramme des paquetages un paquetage eacutetant un conteneur logique

permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le

Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages

crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions

Diagramme de structure composite permet de deacutecrire sous forme de

boicircte blanche les relations entre composants dune classe

Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs

interactions

Diagramme de communication repreacutesentation simplifieacutee dun diagramme

de seacutequence se concentrant sur les eacutechanges de messages entre les objets

Diagramme global dinteraction permet de deacutecrire les enchaicircnements

possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de

diagrammes de seacutequences

Diagramme de temps permet de deacutecrire les variations dune donneacutee au

cours du temps

Diagramme des cas dutilisation il permet didentifier les possibiliteacutes

dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les

fonctionnaliteacutes que doit fournir le systegraveme

Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration

en termes dactions

Diagramme de composants repreacutesentation des composants physiques

dune application

Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les

steacutereacuteotypes des classes ou des packages

Diagramme de deacuteploiement repreacutesentation du deacuteploiement des

composants sur les dispositifs mateacuteriels

184

Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes

Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la

premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de

Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute

dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant

devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une

deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante

Une base de donneacutees XML native deacutefinit un modegravele logique pour un document

XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au

minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du

document

Une base de donneacutees XML native gegravere le document XML comme une uniteacute

fondamentale de stockage comme une ligne dans une table relationnelle

Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent

particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique

orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers

compresseacutes indexeacutes

La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de

donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain

nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de

donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de

lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc

La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale

dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible

qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents

lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des

bases de donneacutees XML actuelles

La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas

important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de

185

donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest

pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait

envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees

XML native comme eXist lrsquoa fait agrave ses deacutebuts

Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement

pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les

transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des

langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc

parfaitement dans notre approche entiegraverement baseacutee sur XML

186

Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute

Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de

donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate

Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute

sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace

drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience

drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel

Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage

propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves

actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est

compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un

processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une

application

eXist fournit un stockage sans scheacutema des documents XML dans des collections

hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des

documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs

peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents

contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement

de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification

rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-

descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de

chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement

les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de

documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions

La base de donneacutees convient bien aux applications manipulant des petites ou larges

collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute

conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant

lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes

XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath

187

et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre

autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres

Architecture drsquoeXist

eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement

agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents

XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale

Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement

seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des

courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et

les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques

comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles

possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un

ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et

XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du

cœur drsquoeXist

eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut

fonctionner comme un processus serveur autonome fournissant des interfaces http et

XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles

peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut

fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-

RPC SOAP109 et WebDAV110 sont fournis par les servlets

Figure 53 Architecture deXist copy Wolfgang Meier

107

httpxmlrpcscriptingcomspechtml 108

httpxmldb-orgsourceforgenetxapixapi-drafthtml 109

httpwwww3org2000xpGroup 110

httpwwwietforgrfcrfc2518txt

188

BIBLIOGRAPHIE

189

Bibliographieacute

Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125

Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary

Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442

Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410

Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381

Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29

Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress

Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press

Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520

Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155

Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE

Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178

Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37

Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15

Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863

Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314

190

Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104

Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333

Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille

Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7

Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53

Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet

Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons

Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192

Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates

Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences

Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193

Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93

Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69

Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis

Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148

Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306

Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie

Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592

Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74

191

Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87

Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345

Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979

Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy

Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique

Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531

Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572

Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53

Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822

Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc

Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432

Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20

Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57

Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128

Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68

Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469

Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris

Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73

192

Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research

Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8

Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788

Gautier C (1981) Nucleic acid sequences handbook Praeger

Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523

Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance

Griffith A (2005) Java XML and the JAXP In Wiley (ed)

Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928

Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174

Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264

Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153

Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511

Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9

Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119

Harold ER and Means WS (2004) XML in a Nutshell OReilly Media

Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA

Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915

Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60

Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190

Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448

Hunter J (2003) X is for Query Oracle Magazine

Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York

Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)

193

Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541

Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology

Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)

Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30

Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357

Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280

Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59

Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169

Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley

Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337

Kimball R (2002) data warehouse toolkit

Kimball R (2003) The Bottom-Up Misnomer

King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18

Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper

Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web

Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597

Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283

Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138

Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni

Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170

194

Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268

Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441

List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215

MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA

Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562

Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144

Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348

Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105

Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381

Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378

Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755

McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)

McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587

Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34

Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376

Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477

Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537

Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall

Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65

195

Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269

Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga

Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622

Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230

Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2

Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846

Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125

Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350

Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163

Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171

Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)

Rehm B (2009) Pseudomonas Wiley-VCH

Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557

Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996

Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149

Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84

Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010

Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696

Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236

Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243

Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871

196

Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York

Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186

Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188

Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141

Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298

Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73

Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110

Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276

Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298

Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis

Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717

Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49

Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488

Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6

Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150

Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373

Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33

197

Reacute feacute reacutenceacutes Inteacuterneacutet

198

Reacute feacute reacutenceacutes Inteacuterneacutet

(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml

AmiGO httpamigogeneontologyorgcgi-binamigogocgi

Apache Server httphttpdapacheorg

ArrayExpress httpwwwebiacukarrayexpress

ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm

Axis httpwsapacheorgaxisoverviewhtml

BioCyc httpbiocycorg

BioGrid httpthebiogridorg

Bioperl httpwwwbioperlorgwikiMain_Page

biosql httpwwwbiosqlorgwikiMain_Page

Blast httpblastncbinlmnihgovBlastcgi

Bots httpenwikipediaorgwikiWikipediaBots

BRENDA httpwwwbrenda-enzymesinfo

Chado httpgmodorgwikiChado_-_Getting_Started

ChEBI httpwwwebiacukchebi

CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

core httpdublincoreorg

CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast

dbEST httpwwwncbinlmnihgovdbEST

dbSNP httpwwwncbinlmnihgovprojectsSNP

DDBJ httpwwwddbjnigacjp

Dublin Core httpdublincoreorg

EBI httpwwwebiacuk

EcoCyc httpecocycorg

EMBL httpwwwemblde

EMBO httpwwwemboorg

ensEMBL httpwwwensemblorgindexhtml

Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric

Entrez httpwwwncbinlmnihgovsitesgquery

EPConDB httpwwwcbilupenneduepcondb42

eXist httpexistsourceforgenet

199

ExPASy httpexpasyorg

ExPASy httpexpasyorg

Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix

FASTA httpwwwebiacukToolssssfasta

Flybase httpflybaseorg

Garlic httpwwwalmadenibmcomcsgarlic

Gbrowse httpgmodorgwikiGBrowse

GDB httpgdbwwwgdborg

Genbank httpwwwncbinlmnihgovnuccore

GeneCards httpwwwgenecardsorg

GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame

GEO httpwwwncbinlmnihgovgeo

GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

GFF httpgmodorgwikiGFF

GO httpwwwgeneontologyorg

HGNC httpwwwgenenamesorg

IMG httpimgjgidoegov

inmon httpenwikipediaorgwikiBill_Inmon

InterPro httpwwwebiacukinterpro

Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml

JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

jena httpjenaapacheorg

Jetty httpjettycodehausorgjetty

JWBF httpjwbfsourceforgenet

KEGG httpwwwgenomejpkegg

LION Bioscience AG httpwwwbiochipnetcomnode1561

MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings

Medline httpwwwmedlinecom

MeSH httpwwwnlmnihgovmesh

MetaCyc httpmetacycorg

MGI httpwwwinformaticsjaxorg

Microbes Online httpwwwmicrobesonlineorg

MIPS httpwwwhelmholtz-muenchendeenibis

MySQL httpwwwmysqlcom

NCBI httpwwwncbinlmnihgov

NIH httpwwwnihgov

OBO httpwwwobofoundryorg

ODMG wwwodmgorg

OMIM httpwwwomimorg

ORACLE httpwwworaclecomindexhtml

OWL httpwwww3orgTR2009WD-owl2-primer-20090611

PDB httpwwwrcsborgpdbhomehomedo

200

peer-review literature httpenwikipediaorgwikiPeer_review

perl httpdevperlorgperl5

Pfam httppfamsangeracuk

PhosphGrid httpwwwphosphogridorg

Plasmodb httpplasmodborgplasmo

ProDom httpprodomprabifrprodomcurrenthtmlhomephp

PRODORIC httpwwwprodoricde

Proteacutegeacute httpprotegestanfordedu

Pseudomonas Genome Database httpwwwpseudomonascom

Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg

PseudomonasDW httpwwwpseudomonasdwkhaosumaes

PubMed httpwwwncbinlmnihgovpubmed

Qexo httpwwwxmlcompuba20030611qexohtml

RDF httpwwww3orgTRrdf-concepts

RDFS httpwwww3orgTRrdf-schema

RefSeq httpwwwncbinlmnihgovRefSeq

RiboWeb httphelix-webstanfordeduribowebhtml

SGD database httpwwwyeastgenomeorg

SRS httpsrsebiacuk

Tomcat httptomcatapacheorg

UML httpwwwumlorg

UMLS httpwwwnlmnihgovresearchumls

UniGene httpwwwncbinlmnihgovunigene

UniProt httpwwwuniprotorg

W3C httpwwww3org

watchlist httpwwwmediawikiorgwikiManualWatchlist

WebDAV httpwwwietforgrfcrfc2518txt

Wikipedia httpwwwwikipediaorg

xBASE httpwwwxbaseacuk

XML httpwwww3schoolscomxml

XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml

XML-RPC httpxmlrpcscriptingcomspechtml

XML-RPC SOAP httpwwww3org2000xpGroup

ZFIN httpzfinorg

Page 4: UNIVERSITE ABDELMALEK ESSAADI - IMIST

1

Reacute sumeacute

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de

culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas

ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie

par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre

drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a

conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis

de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de

donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la

reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce

travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche

LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage

Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et

lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre

lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes

sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct

de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de

donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et

BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration

seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins

des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des

donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees

heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave

partir drsquoune seules source

Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride

PseudomonasDW

2

Reacutemeacutercieacutemeacutents

3

Reacutemeacutercieacutemeacutents

Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani

pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute

et aideacute tout au long de ses anneacutees de thegravese

Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-

encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de

recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches

Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger

mon travail

Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe

khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton

preacutecieux soutien

A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute

leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont

teacutemoigneacutes

Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec

une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton

encouragement

Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes

compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave

lrsquoavancement de ce travail

Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere

Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma

grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille

Briache

Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail

4

Sommaireacute

5

Sommaireacute

Introduction geacuteneacuterale 18

1 Problematique et motivation 19

2 CADRE ET BUTS DU TRAVAIL 23

3 Les pseudomonas 24

31 Caracteres geacuteneacutereaux 24

32 Pouvoir pathogegravene 26

33 Lutte biologique 27

4 Structure de document 28

Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

1 Introduction 31

2 Eacutetat des sources 32

21 Varieacuteteacute des sources biologiques 33

22 Autonomie et capaciteacutes drsquointerrogation 35

3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37

31 Diversiteacute syntaxique 37

32 Diversiteacute seacutemantique 38

33 Diversiteacute des langages de requecircte 39

34 Diversiteacute des services 39

4 Eleacutements de standardisation 40

41 Format standards et nomenclatures 40

42 Ontologies 41

43 Meacutetadonneacutees 42

44 Langages et formalismes 43

Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46

1 Introduction 47

2 points de variation entre les approches drsquointeacutegration 49

21 Degreacute drsquointeacutegration 49

211 Approche agrave couplage serreacute 49

6

212 Approche agrave couplage lacircche 50

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50

221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50

222 Types drsquointeacutegrations seacutemantique 51

223 Approches ascendante et descendante 51

23 Mateacuterialisation des reacutesultats 52

24 Accegraves aux donneacutees 52

3 approches drsquointeacutegration en bioinformatique 52

31 Approche non mateacuterialiseacutee 53

311 Le systegraveme meacutediateur 53

312 Le systegraveme navigationnel 61

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70

321 Deacutefinition et Architecture 70

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74

324 Les modegraveles des entrepocircts de donneacutees 75

325 Adeacutequation Problegravemes rencontreacutes 81

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82

4 Discussion 86

Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de

Pseudomonas sp 90

1 Introduction 91

2 Vue Global sur le systegraveme PseudomonasDW 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94

211 Bases de donneacutees geacutenomique et proteacuteique 95

212 Bases de donneacutees meacutetaboliques 96

213 Bases de donneacutees Enzymatique 97

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101

31 Scheacutemas de source 101

32 Services de donneacutees 102

321 Architecture du service de donneacutees dans PseudmonasDW 103

7

322 Impleacutementation du service de donneacutees dans PseudmonasDW 104

33 Scheacutema Inteacutegrateur du PseudmonasDW 107

34 Correspondances seacutemantiques entre les scheacutemas 110

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113

36 SB-KOM System Biology Khaos Ontology-based Mediator 115

4 Processus ETL dans Pseudomonasdw 117

5 Discussion et conclusion 123

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

126

1 Introduction 127

2 MODEacuteLISATION de PseudomonasDW 129

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129

22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133

23 Diagramme de classes du systegraveme PseudomonasDW 135

3 IMPLEMENTATION DE PSEUDOMONASDW 135

31 Organisation des bases de donneacutees de PseudomonasDW 136

32 Impleacutementation des bases de donneacutees de PseudomonasDW 139

4 INTERFACE WEB DE PSEUDOMONASDW 141

41 Les Moteurs de rechercheacute dans PseudomonasDW 141

42 Les entreacutees de Pseudomonas DW 144

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147

511 GBrowse Vue geacuteneacuterale 149

512 Installation de GBrowse 149

513 Creacuteation et peuplement des bases de donneacutees MySQL 150

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153

521 Blast Vue geacuteneacuterale 153

522 La fonctionnaliteacute du Blast 154

6 PDWiki 157

61 Geacuteneacuteraliteacute sur les Wikis biologiques 158

62 PDWiki Infrastructure et contenue 159

63 Comment naviguer dans PDWiki 162

8

7 DISCUSSION 163

Conclusions et perspectives 165

1 Reacutesumeacute des contributions 168

2 Ouverture et pistes de recherche 172

Glossaire 174

Annexes 181

Bibliographie 188

Reacutefeacuterences Internet 197

9

INDEX DES FIGURES ET DES TABLES

FIGURES

Figure 1 Architecture dun systegraveme meacutediateur 54

Figure 2 Lapproche GAV (Global As View) 56

Figure 3 Lapproche LAV (Loacl As View) 56

Figure 4 Approche GLAV 57

Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62

Figure 6 Graphe de liens entre les sources 63

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65

Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67

Figure 9 Architecture de BioGuide 69

Figure 10 Architecture dun entrepocirct de donneacutees 71

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de

donneacutees 73

Figure 13 Exemple de cube de donneacutees 76

Figure 14 Modegravele en eacutetoile 78

Figure 15 modegravele en flocon 78

Figure 16 Modegravele en constellation 78

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le

systegraveme PseudmonesDW 103

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108

10

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre

conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux

relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et

les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et

lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la

formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet

sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles

de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en

haut des eacuteleacutements de lontologie en rouge 118

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc

contient des informations pour acceacuteder aux services de donneacutees 119

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat

final de leacutetape ETL au sein de systegraveme PseudomonasDW 121

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction

de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de

chargement de donneacutees au sei de PseudmonasDW 122

Figure 33 Le diagramme de cas dutilisation de lutilisateur 131

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132

Figure 35 Le diagramme de cas dutilisation de ladministrateur 133

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134

Figure 37 Le diagramme conceptuel de PseudomonasDW 137

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A

gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW

A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas

aeruginosa PAO1 139

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees

au niveau de PseudomonasDW 140

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne

la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de

seacutelectionner un champ speacutecifique de recherche 142

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections

Organism et Gene de lentreacutee PAE00524 145

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154

11

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles

lutilisateur peut choisir 155

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences

indeacutependamment des bases de donneacutees de PseudomonasDW 155

Figure50 Exemple de reacutesultat de Blast 157

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir

et annoter lentreacutee PAE00524 de PseudomonasDW 161

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de

PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162

Figure 53 Architecture deXist copy Wolfgang Meier 187

TABLES

Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54

Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117

Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130

Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131

Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140

12

ABREVIATION

13

ABREVIATION

ADN Acide Deacutesoxyribonucleacuteique

API Application Programming Interface

ASN Abstract Syntax Notation

BACIIS Biological And Chemical Information Integration System

BioGRID Biological General Repository for Interaction Datasets

BLAST Basic Local Alignment Search Tool

CGH Comparative genomic hybridization

ChEBI Chemical Entities of Biological Interest

CMR Comprehensive Microbial Resource

CPAN Reacuteseau Complet drsquoArchives Perl

CPL Collection Programming Language

CSS Cascading Style Sheets

CSUQ Computer System Usability Questionnaire

CYGD Comprehensive Yeast Genome Database

DAML DARPA Agent Markup Language

dbEST Expressed Sequences Tags databases

DDBJ DNA Data Bank of Japan

DTD Document Type Definition

EBI European Bioinformatics Institute

EcoCyc Encyclopedia of Escherichia coli

EMBL European Molecular Biology Laboratory

EMBO European Molecular Biology Laboratory

EPG Entity Path Generator

ETL Extraction transformation and loading

ExPASy (Expert Protein Analysis System

FTP File Transfer Protocol

GAM Generic Annotation Management

GAV Global As View

GDB Human Genome Databases

GEDAW Gene Expression DAta Warehouse

GenMapper Genetic Mapper

GEO Gene Expression Omnibus

GeWare Gene Expression Warehouse

14

GFF General Feature Format

GIMS Genome Information Management System

GLAV Generalized Local As View

GMOD Generic Modele Organisme Database project

GNU GNUs Not UNIX

GO Gene Ontology

GPL General Public License

GRAIL GALEN Representation and Integration Language

GUS Genomics Unified Schema

HGNC Human Gene Organisation

HGP Human Genome Project

HGP Human Genome Project

HTML HyperText Markup Language

HTTP Hypertext Transfer Protocol

IBM International Business Machines

ICARUS Interpreter of Commands And Recursive Syntax

IMG Integrated Microbial Genomes

INSDC Internatinal Nucleotide Sequence Database Collaboration

INSERM Institut National de la Santeacute et de la recherche meacutedicale

IRISA Institut de Recherche en Informatique et Systegravemes

Aleacuteatoires

JAXB Java Architecture for XML Binding

JAXP Java API for XML Processing

JDBC Java Database Connectivity

K2MDL K2 Mediator Definition Language

KEGG Kyoto Encyclopedia of Genes and Genomes

KOMF Khaos Ontology-based Mediation Framework

LAV Local As View

MCM Modegravele Conceptuel Multidimensionnel

MeSH Medical Subject Headings

MGD Mouse Genome Database

MGI Mouse Genome Informatics

MIPS Munich Information Center for Protein Sequences

MOLAP Multidimensionnal On Line Analytical Processing

NAR Nucleic Acids Research

NBRF National Biomedical Research Foundation

NCBI National Center for Biotechnology Information

15

NIH National Institutes of Health

NXD Native XML Database

OBO Open Biomedical Ontologies

ODL Object Definition Language

ODMG Object Data Management Group

OIL Ontology Inference Layer

OLAP On Line Analytical Processing

OLTP On Line Transactionnel Processing

OMG Object Management Group

OMIM Online Mendelian Inheritance in Man

OOLAP Object On-Line Analytical Processing

OQL Object Query Language

OWL Web Ontology Language

PDP Protein Data Bank

Pfam Protein Famili

PHP Hypertext Preprocessor

PIR Protein Identification Ressource

PPI Protein-Protein Interaction

PQL Program Query Language

PRODORIC PROcariotIC Database Of Gene-Regulation

QUIS Questionnaire for User Interface Satisfaction

RDF Resource Description Framework

RDFS Resource Description Framework Schema

ROLAP Relational On-Line Analytical Processing

SB-KOM System Biology Khaos Ontology-based Mediator

SEPT Source Entity Path Translator

SGBD Systegraveme de gestion de base de donneacutees

SGD Saccharomyces Genome Database

SKB Source Knowledge Base

SOAP Simple Object Access Protocol

SOFG Standards and Ontologies for Functional Genomics

SQL Structured Query Language

SRS Sequence Retrival System

SUS System Usability Scale

Tambis Transparent Access to Multiple Bioinformatic

InformationSources

TaO Tambis Ontology

16

UCL Universiteacute catholique de Louvain

UML Unified Modelling Language

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USA United States of America

W3C World Wide Web Consortium

WSDL Web Services Description Language

XML Extensible Markup Language

XSLT Extensible Stylesheet Language Transformations

ZFIN Zebrafish Information Network

17

NOTE AU LECTEUR

Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire

18

INTRODUCTION GENERALE

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute

19

Introduction geacute neacute raleacute

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au

domaineacute biologiqueacute

Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere

exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des

sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au

plus grand nombre ouvrant ainsi de belles perspectives en recherche

La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant

les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation

diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse

du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees

diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de

reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees

heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte

Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte

La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs

disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la

complexiteacute du monde vivant (Blagosklonny and Pardee 2002)

Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de

diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques

implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de

donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature

1 PROBLEMATIQUE ET MOTIVATION

Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les

laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute

20

des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de

donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel

Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats

La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas

envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la

documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de

consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter

les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers

plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML

(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les

langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery

(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont

parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur

Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui

avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun

(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes

incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige

lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees

enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par

le biais de formulaires Web ou par une connexion directe au SGBD

De nos jours la masse formidable de donneacutees produites par les centres de recherche

atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de

systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb

2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette

accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune

science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee

2005)

Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des

donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute

particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces

sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare

de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige

leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du

systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise

optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La

1 httpwwwncbinlmnihgovnuccore

2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-

mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

21

majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des

serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent

montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge

Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne

concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct

lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la

preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres

deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-

Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de

logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans

compensation financiegravere5

Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave

rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee

possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux

problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin

dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes

eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario

typique reacutesolu manuellement

Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les

voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee

laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe

le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo

Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape

consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees

Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu

dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par

exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees

KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations

fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue

qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous

auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible

nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave

geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens

hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml

4 httpwwwmysqlcom

5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes

6 httpwwwbrenda-enzymesinfo

7 httpwwwgenomejpkegg

22

paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que

GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes

dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que

tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention

humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne

pas dire inexistante

Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages

de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des

solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface

unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le

cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles

(architecture de meacutediation)

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les

donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des

hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J

and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque

base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace

physique occupeacute serait trop important tant par les donneacutees que la conservation de leur

traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de

fonctionnement du systegraveme

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

23

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans

certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de

transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees

2 CADRE ET BUTS DU TRAVAIL

Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il

srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions

moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux

drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur

apparition croissante dans la litteacuterature scientifique

Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette

masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles

connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet

comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le

Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis

quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer

lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte

drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double

Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces

donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une

proteacuteine donneacutee

Fournir une plateforme complegravete permettant drsquoorienter la recherche par

extraction de nouvelles connaissances

La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en

combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la

mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine

biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre

24

groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de

Malaga

La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees

biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets

drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-

organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees

PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les

enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki

scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la

communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations

relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans

PseudomonasDW

3 LES PSEUDOMONAS

31 Caracteres geacuteneacutereaux

Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al

2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes

Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec

comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le

nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles

sont oxygegravene (+)

Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes

comme source de carbone et drsquoeacutenergie

Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux

antibiotiques et aux antiseptiques

A) Morphologie et structure

Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La

mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour

les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en

deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture

25

B) Croissance et nutrition

De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la

tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes

La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont

capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de

carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les

auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats

carboneacutes utilisables comme source drsquoeacutenergie pour la croissance

C) Caractegraveres physiologiques

Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de

conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de

culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle

tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip

D) Habita

Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol

humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et

se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels

surtout srsquoils sont humides

E) Morphologie et caractegraveres culturaux

Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune

pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de

cette bacteacuterie

Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC

ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la

production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et

non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski

convient pour la culture

F) Aspects de colonies

Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut

ecirctre observeacutee

Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un

contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect

meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave

lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes

Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord

circulaire reacutegulier

26

Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces

colonies se rencontrent presque speacutecifiquement dans des infections chroniques

urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un

polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo

G) Production de pigments

Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification

Ils sont fluorescents ou non fluorescents

Pyoverdine

Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en

eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est

inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer

Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes

fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas

aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de

nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un

moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer

et de le transporte

Pyocyanine

Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la

seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves

drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en

milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la

chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na

Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches

sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des

malades traiteacutes aux antibiotiques

Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent

de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le

diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P

lemonieri P stutzeri et P mendocina

32 Pouvoir pathogegravene

Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme

pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et

27

cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle

peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle

comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par

lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave

certains antibiotiques courants

Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble

laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique

de mauvaises conditions de plantation une autre maladie des blessures un systegraveme

racinaire contraint ou asphyxieacute

Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme

agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de

Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux

eacutetudieacutee

33 Lutte biologique

De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de

biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la

biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par

des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol

ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches

mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour

deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les

performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres

bacteacuteries

Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute

microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les

genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement

sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui

colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent

particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique

Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de

population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient

sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres

rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des

exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave

isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-

A-Woeng et al 2001)

28

Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues

depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans

certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents

phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs

meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de

sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition

du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela

peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la

maladie

4 STRUCTURE DE DOCUMENT

Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les

diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une

description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources

Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions

majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et

montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de

la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques

des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)

qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de

donneacutees originales jusqursquoagrave PseudomonasDW

Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les

espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les

phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet

aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous

deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans

PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur

drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW

Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs

29

Preacutemieacute reacute Partieacute

30

CHAPITRE 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

31

Chapitre 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

Sommaire

1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38

33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41

43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42

44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43

1 INTRODUCTION

Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif

est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de

solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees

Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80

sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier

1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute

une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise

en place de systegravemes de stockage des donneacutees

32

En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de

seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute

ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos

(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees

relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration

entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest

eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour

proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui

accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques

Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere

sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource

(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve

degraves 1986

2 EacuteTAT DES SOURCES

Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web

eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases

Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus

importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and

Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de

1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu

le jour

On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les

dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de

ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre

source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le

Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)

quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne

leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont

vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces

agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute

stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute

8 httpwwwemboorg

9 httpwwwnihgov

10 httpwwwncbinlmnihgov

11 httpwwwddbjnigacjp

12 httpwwwncbinlmnihgovgeo

13 httpwwwebiacukarrayexpress

33

creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le

deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement

analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)

drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les

reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de

donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements

multiples

La sous-section suivante dresse un rapide panorama drsquoun certain nombre de

sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web

21 Varieacuteteacute des sources biologiques

Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La

classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave

lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees

qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)

classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes

(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de

donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des

travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources

suivantes

Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du

domaine meacutedical Medline16 PubMed17

Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en

existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les

seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank

(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui

contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits

les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de

donneacutees sont ArrayExpress (Europe) et GEO (USA)

Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees

disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement

chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par

14

httpblastncbinlmnihgovBlastcgi 15

httppfamsangeracuk 16

httpwwwmedlinecom 17

httpwwwncbinlmnihgovpubmed

34

un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou

GEOArrayExpress) dans un certain format Toute publication scientifique

soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de

puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification

GenBankEMBLDDBJ (respectivement GEOArrayExpress)

Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne

sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des

seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la

soumission

Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces

sources contiennent des informations nettoyeacutees (au moins automatiquement

comme la suppression de doublons) et parfois mecircme valideacutees manuellement par

des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires

est de partir de donneacutees issues des sources primaires pour proposer des

informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations

compleacutementaires

Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont

deux exemples de sources secondaires qui proposent de regrouper les fiches

GenBank La premiegravere propose une version non redondante de GenBank elle est

obtenue en utilisant des techniques de regroupement semi-automatiques alors que

la seconde construit de faccedilon automatique des clusters de seacutequences

Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement

du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun

ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un

ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans

lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les

reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de

publications et associeacutes agrave un pheacutenotype (une maladie) donneacute

Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources

au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage

(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes

automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils

bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources

18

httpwwwncbinlmnihgovRefSeq 19

httpwwwncbinlmnihgovunigene 20

httpwwwncbinlmnihgov 21

httpwwwomimorg 22

httpprodomprabifrprodomcurrenthtmlhomephp

35

sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des

reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees

Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees

sur une famille de fonctions biologiques Par exemple la source BRENDA

est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique

sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources

FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database

SGD24 (deacutedieacutee agrave la levure)

Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de

fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes

dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve

dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de

synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes

humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt

(Consortium 2010) GenBank)

22 Autonomie et capaciteacutes drsquointerrogation

La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement

autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait

libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent

souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en

faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles

reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source

pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude

du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit

prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution

afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci

lors de lrsquoexeacutecution des requecirctes

Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web

est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet

eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de

cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les

accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client

23

httpflybaseorg 24

httpwwwyeastgenomeorg 25

httpwwwgenecardsorg

36

FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par

exemple) ou plus reacutecemment encore via des appels de services Web Concernant les

interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui

suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces

qursquoil devra utiliser

Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent

tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas

lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont

disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent

soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il

nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la

puissance de calcul drsquoune source par une requecircte trop complexe

soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive

drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source

Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme

drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et

via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs

sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus

expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL

Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais

aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)

ou Fasta26 (Lipman and Pearson 1985)

Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs

repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation

ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les

proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre

automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de

faciliteacute en fonction de lrsquoapproche suivie

26

httpwwwebiacukToolssssfasta

37

3 DIFFICULTES RENCONTREES LORS DE

LrsquoINTERROGATION DES SOURCES

Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web

nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de

donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout

une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements

effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au

cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble

de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi

que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux

des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements

En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele

de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a

deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati

2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses

approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La

taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation

mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des

probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al

2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques

qui rendent leur interrogation complexe et fastidieuse

31 Diversiteacute syntaxique

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les

formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees

soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson

1985) soit du XML du HTML ou des SGBD relationnels ou objets

Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase

drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le

deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du

langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin

2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et

al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave

reacutesoudre

27

httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

38

32 Diversiteacute seacutemantique

Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui

sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus

Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une

entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine

qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene

codant pour chaque proteacuteine est alors vu comme un simple attribut Au

contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et

crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le

domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine

(dans PDB29)

Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee

nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par

exemple UniProt propose des informations sur des proteacuteines issues de

diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles

ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire

chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune

des proteacuteines de la levure

Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une

mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par

exemple selon les sources une proteacuteine est une isoforme particuliegravere

(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes

(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui

peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou

incluant les introns

La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais

qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des

modegraveles des formats et des scheacutemas diffeacuterents

Diversiteacute des informations au niveau des instances

Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son

expertise agrave travers une fiche Il peut arriver que selon les sources une

mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes

Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance

associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est

peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe

drsquoannotateurs Certains annotateurs emploieront le terme de putative 28

httpwwwebiacukinterpro 29

httpwwwrcsborgpdbhomehomedo

39

pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront

le terme hypothetical Drsquoautres encore ne preacuteciseront rien

Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent

plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme

proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les

sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait

plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes

diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas

en preacutesence drsquohomonymie

Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi

ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de

vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie

les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable

puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de

la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees

33 Diversiteacute des langages de requecircte

Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le

langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)

est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases

de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la

source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin

et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes

OQL sur leur scheacutema

34 Diversiteacute des services

Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees

(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave

une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers

ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre

lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par

exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des

heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de

30

httpwwwensemblorgindexhtml

40

donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences

nucleacuteotidiques comme BlastN)

4 ELEMENTS DE STANDARDISATION

Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute

proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms

des concepts sous-jacents aux donneacutees des sources et des noms des relations entre

ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre

experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le

second type de solution est plus geacuteneacuterique il comprend la construction de cadres de

repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que

lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de

concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de

solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees

contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees

41 Format standards et nomenclatures

Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de

terminologies standards pour deacutecrire les donneacutees

Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir

des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies

pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un

workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu

annuellement et regroupe les principaux acteurs sur cette probleacutematique

Le souci de standardisation de lrsquoattribution de noms est pris en compte par le

consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature

Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences

31

httpwwwgenenamesorg

41

42 Ontologies

Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de

faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la

construction de nombreuses ontologies

Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la

philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions

informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune

conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus

souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie

cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a

donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces

concepts

Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine

biologique

Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui

vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques

speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un

organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement

consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants

cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la

communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres

ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie

MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)

Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open

Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en

ligne dont voici un extrait

Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces

particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du

Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish

Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on

distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour

32

httpwwwgeneontologyorg 33

httpwwwobofoundryorg 34

httpwwwinformaticsjaxorg 35

httpzfinorg 36

httpwwwnlmnihgovresearchumls

42

les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject

Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine

Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al

2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39

(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un

dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave

lrsquoEBI41

Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et

al 1997) propose un format de donneacutees une nomenclature et un cadre XML

(RNA-ML) (Waugh et al 2002)

Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)

nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN

et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies

se preacutesentent sous la forme de graphes non cycliques

43 Meacutetadonneacutees

Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil

srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave

une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee

permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation

et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples

de meacutetadonneacutees

lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification

des commentaires exprimant un point de vue sur la ressource

le scheacutema des donneacutees les index associeacutes

des informations de qualiteacute relatives au scheacutema de la ressource

des informations statistiques sur les donneacutees

la speacutecification la signature drsquoun programme

37

httpwwwnlmnihgovmesh 38

httpecocycorg 39

httpmetacycorg 40

httpwwwebiacukchebi 41

httpwwwebiacuk 42

httphelix-webstanfordeduribowebhtml

43

Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute

proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la

description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere

geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la

description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements

(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en

cateacutegories

Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description

(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant

le contenu de la ressource titre sujet ou codes de classement description

source langue relation avec une autre ressource couverture spatiale et temporelle

la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation

la mateacuterialisation de la ressource cycle de vie type format identificateur

44 Langages et formalismes

Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont

deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont

XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du

W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de

donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre

explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou

des applications

Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun

document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en

particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la

grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux

formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document

Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee

en XML

Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les

eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt

43

httpdublincoreorg 44

httpwwww3org

44

De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois

des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique

drsquoeacuteleacutements agrave une structure en graphe

Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un

document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire

deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide

XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il

assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML

crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension

seacutemantique

RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C

pour la description des sources sur le Web Les descriptions se font en exprimant des

proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave

deacutefinir les termes et les relations qui interviennent dans ces descriptions

RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des

meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces

meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes

de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le

Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme

drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en

acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre

une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut

ecirctre reacutealiseacutee et faciliteacutee

Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces

concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des

ontologies

OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute

par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les

applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave

preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML

RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle

OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la

disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus

riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees

45

httpwwww3orgTRrdf-concepts 46

httpwwww3orgTRrdf-schema 47

httpwwww3orgTR2009WD-owl2-primer-20090611

45

OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL

OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une

hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou

taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des

constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux

tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes

de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de

restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes

mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique

de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider

au raisonnement sur une base de connaissances OWL Full permet un maximum

drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe

proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du

vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL

pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de

connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description

46

CHAPITRE 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

47

Chapitre 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47

2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50

23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53

32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70

4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86

1 INTRODUCTION

Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les

questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions

au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes

drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave

plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces

systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and

Kambhampati 2004)

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute

proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur

48

Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des

autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire

communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque

permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire

n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les

systegravemes (Sheth and Larson 1990)

Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune

base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les

applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement

directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)

Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration

drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes

sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont

accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des

sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de

requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources

disponibles

Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves

reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees

biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures

comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees

mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans

le mecircme temps

Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre

les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de

lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les

donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches

sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la

lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes

Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave

ecirctre exhaustifs

49

2 POINTS DE VARIATION ENTRE LES APPROCHES

DrsquoINTEGRATION

On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le

degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la

mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et

al 2004)

Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit

lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en

un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme

est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a

eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un

systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types

drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La

mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les

vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes

envoyeacutees au systegraveme

21 Degreacute drsquointeacutegration

Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement

appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere

approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema

inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche

agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources

de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une

transparence drsquointerface

211 Approche agrave couplage serreacute

Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de

lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul

emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema

peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit

conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des

requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme

drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas

50

des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des

deacutefinitions de regravegles (voir la sous-section 3213)

Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre

tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema

inteacutegrateur

212 Approche agrave couplage lacircche

Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du

systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter

lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les

utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre

accessibles pour des requecirctes

Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour

les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de

sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas

sont toujours visibles

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration

Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees

provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees

Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle

lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web

seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune

telle infrastructure

221 Modegravele de donneacutees du systegraveme drsquointeacutegration

Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le

modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un

scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les

donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas

drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour

acceacuteder aux sources de donneacutees

51

222 Types drsquointeacutegrations seacutemantique

Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas

drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres

systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants

Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun

point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique

comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les

communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration

verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati

2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la

communauteacute informatique)

Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une

correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme

drsquointeacutegration

Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la

preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux

drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche

drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier

des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique

ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire

le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees

seacutemantique

223 Approches ascendante et descendante

Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre

seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche

lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball

2002)

Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des

besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele

de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans

lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces

meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins

des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les

sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir

desquelles les donneacutees deacutecisionnelles sont extraites

52

Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les

donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle

construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-

automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour

deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode

considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la

source (List et al 2002)

23 Mateacuterialisation des reacutesultats

Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle

deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de

lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre

deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche

virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global

extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes

adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees

Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette

approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce

stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les

donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un

entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de

donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes

sources de donneacutees doit passer par des proceacutedures de mises agrave jour

24 Accegraves aux donneacutees

Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes

pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la

navigation speacutecialement dans les systegravemes baseacutees sur le Web

3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE

Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute

dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une

53

approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees

Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres

suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes

sources et combineacutees dans un scheacutema global

31 Approche non mateacuterialiseacutee

Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels

sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques

de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme

ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour

drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web

proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50

(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble

eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et

permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute

de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases

comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs

reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble

drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome

humain

Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types

drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees

biologiques le systegraveme meacutediateur et le systegraveme navigationnel

311 Le systegraveme meacutediateur

Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un

systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent

stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture

meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous

indiquerons dans cette section comment certaines approches meacutediateur sont directement

issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est

celle qui est la plus reacutepondue en informatique

48

httpwwwncbinlmnihgovsitesgquery 49

httpexpasyorg 50

httpsrsebiacuk

54

A) Deacutefinition et Architecture

Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose

une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes

pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et

homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes

Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est

central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un

vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit

une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche

lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de

faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de

lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont

calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver

une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique

logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte

poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions

des vues

Figure 1 Architecture dun systegraveme meacutediateur

55

Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme

drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans

leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui

lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon

distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via

des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en

terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source

B) Approches GAV LAV et GLAV

Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par

la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des

sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales

drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave

inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes

(GLAV) (Baader et al 2003)

Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour

lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave

inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont

deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette

approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance

Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du

scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de

donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit

que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee

par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois

deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources

de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se

ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement

effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de

nouvelles sources de donneacutees

La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est

geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources

ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels

que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le

scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par

51

Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes

56

exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute

ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global

Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications

consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T

a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)

Figure 2 Lapproche GAV (Global As View)

Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les

scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et

inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche

LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de

donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre

ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du

scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute

et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une

requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en

termes de vues est en effet bien plus complexe que dans une approche GAV Nous

renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle

Figure 3 Lapproche LAV (Loacl As View)

57

Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche

GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee

en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche

GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une

nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans

lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue

sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut

deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif

que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du

pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la

conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison

entre les trois approches

Figure 4 Approche GLAV

Table1 Comparaison des approches GAV LAV et GLAV

Approche Reacuteeacutecriture de requecircte mise-agrave-jour source

GAV facile difficile LAV difficile facile

GLAV difficile facile

C) Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix

des sources ce qui est autant plus important qursquoil a un grand nombre de sources

disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple

surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du

scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque

58

les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui

eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable

(2) Problegraveme rencontreacutes

Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les

donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune

source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes

Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les

reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au

niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement

supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se

fait directement au niveau des donneacutees centraliseacutees

Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur

sont

Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des

langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave

inteacutegrer et les requecirctes des utilisateurs

En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de

reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave

exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale

Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans

de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre

potentiellement redondantes Pour faire correspondre les instances entre elles il

faut suivre les techniques de lrsquoalignement (mappings en anglais)

D) Panorama des meacutediateurs existants en Bioinformatique

(1) K2Kleisli

Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute

deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave

avoir vu le jour en bioinformatique

Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus

expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection

Programming Language) (Hart et al 1994) En effet le langage CPL permet de

deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources

concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources

59

qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de

KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et

EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences

nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et

al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome

Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de

seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par

SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema

orienteacute objet

Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un

langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect

inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non

seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes

objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du

langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur

de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les

sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL

(2) TAMBIS

Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un

systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester

(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO

(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave

travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au

niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le

systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee

pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les

rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une

requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave

la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de

K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux

sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au

format HTML

TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec

OWL qui sont des langages plus expressifs

52

httpwwwncbinlmnihgovdbEST 53

httpgdbwwwgdborg

60

Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa

besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier

avec un langage de requecircte particulier

(3) DiscoveryLink

DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de

DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une

architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire

drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)

utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute

syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont

soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute

lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les

adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator

(Arenson 2003) mais fonctionne toujours selon le mecircme principe

(4) BACIIS

Le projet BACIIS (Biological And Chemical Information Integration System) est un

systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS

BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique

de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le

langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois

dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes

organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees

(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que

rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)

La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de

donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de

donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet

drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme

drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux

inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la

correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme

permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration

54

httpwwwalmadenibmcomcsgarlic

61

312 Le systegraveme navigationnel

Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche

drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris

Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet

de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave

construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques

sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes

sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont

transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle

permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les

sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte

peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations

A) Deacutefinition

Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes

mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec

des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires

telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins

et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)

Notons que compareacute au nombre important de sources de donneacutees actuellement

disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin

dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research

(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les

sources les plus importantes partagent des identifiants mais nombreuses sont celles plus

petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que

partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences

souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les

interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle

atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur

augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive

(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee

par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet

Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger

rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne

neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est

fait encore aujourdrsquohui manuellement

B) Exploitation des reacutefeacuterences croiseacutees

Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un

premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple

62

Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des

informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)

Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune

mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave

des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes

sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas

neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-

reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour

La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur

lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous

consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le

montre lrsquoexemple de la Figure 5

Figure 5 Exemple de partage de reacutefeacuterences entre les sources

Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans

lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero

drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en

gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)

Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les

mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la

reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct

55

httpwwwncbinlmnihgovomim 56

httpamigogeneontologyorgcgi-binamigogocgi

63

La Figure 6 illustre le graphe de liens existants entre les quatre sources pour

reacutepondre agrave la requecircte

Figure 6 Graphe de liens entre les sources

En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent

Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3

Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle

possegravede afin drsquointerroger Source1 et Source2

La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune

boucle apparaicirct dans le parcours des sources

Table 2 Les deux deacuteroulements possibles

Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date

Sceacutenario 1 Sceacutenario 2

Requecircte avec une date sur S1

Requecircte sur S2

Agrave partir de id2 tireacute de S1

Requecircte sur S3

Requecircte avec une date sur S3

Requecircte sur S1 et S2

A partir de id1 et id2 tireacutes de S3

64

Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs

chemins possible pour obtenir les donneacutees souhaiteacutees

Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur

simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure

apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de

la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire

La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle

nrsquoapporte aucune information suppleacutementaire

Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer

les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-

section suivante

C) Panorama des systegravemes navigationnels existants en Bioinformatique

Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de

plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour

le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins

traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont

eacutevalueacutes ces diffeacuterents chemins

(1) Le systegraveme SRS

SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par

lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and

Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par

LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques

de donneacutees (Zdobnov et al 2002)

SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme

drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de

description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And

Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est

drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les

donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index

sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche

drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un

entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees

Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en

mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et

57

httpwwwbiochipnetcomnode1561

65

donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et

beaucoup de banques speacutecialiseacutees

ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences

permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de

relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences

La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web

SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot

cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent

ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la

recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-

reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations

compleacutementaires contenues dans drsquoautres sources

Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques

pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des

sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une

mecircme requecircte

(2) Le systegraveme BioMediator

Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave

lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de

transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses

reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger

Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et

lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur

Le systegraveme BioMediator suit une conception modulaire composeacute de six composant

(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees

biologiques structureacutes et semi-structureacutees

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de

66

Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds

repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de

meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre

une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes

dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe

PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin

PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte

et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes

dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)

(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI

Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema

meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de

scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation

seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees

(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte

XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)

(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des

regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les

requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs

chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins

Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork

et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui

correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une

confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite

Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur

plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des

chemins possibles plutocirct qursquoune liste reacuteduite

(3) Le systegraveme BioNavigation

BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle

Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)

Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation

drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne

pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont

lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau

physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique

58

httpprotegestanfordedu 59

httpwwwxmlcompuba20030611qexohtml

67

ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces

entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)

Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes

entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la

construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les

citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute

lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo

BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une

requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur

des moyens pour eacutevaluer et optimiser les choix de chemins

Figure 8 Exemple de graphe dentiteacutes (Niveau logique)

Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction

du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps

drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and

Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour

reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs

paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans

BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et

sont classeacutes selon trois paramegravetres

68

La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un

chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)

ougrave e1 est une entreacutee de S1 et e2 de S2

La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale

Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution

locale et les deacutelais drsquoaccession aux sources

Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le

satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la

probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le

nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du

chemin le plus efficace en temps

(4) Le systegraveme BioGuide

Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche

navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des

utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet

BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils

bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus

drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine

biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils

et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces

graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y

seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type

de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et

des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous

la forme de chemins entre les sources Ces chemins sont construits en respectant les

preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix

Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la

preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins

geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute

drsquoutilisation

Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat

drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les

diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de

strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes

au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la

requecircte et iii) visitent une source donneacutee une seule fois

69

Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de

lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte

et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)

(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans

le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La

requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se

compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur

le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave

partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des

chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees

Figure 9 Architecture de BioGuide

Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler

ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de

strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou

les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide

ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand

nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees

divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)

70

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)

Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees

reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema

global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis

exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse

est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les

donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique

transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle

Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations

individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et

surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave

lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il

est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce

qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees

global

321 Deacutefinition et Architecture

A) Deacutefinition

Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit

lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non

volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest

pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se

caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)

Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes

Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet

et neacutecessaires aux besoins drsquoanalyse dans une structure unique

Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees

en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour

reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le

reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources

Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la

reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont

non volatile elles ne disparaissent pas apregraves les mises agrave jours

60

httpenwikipediaorgwikiBill_Inmon

71

Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont

permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct

consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent

Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les

valeurs particuliegraveres dans le temps

Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils

drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter

facilement les donneacutees

B) Architecture

Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en

deacutetaillant les diffeacuterentes couches qui le constituent

Figure 10 Architecture dun entrepocirct de donneacutees

Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et

heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data

Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes

depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line

Analytical Processing) (voir la sous-section 322)

Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)

syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend

les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la

hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees

fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-

72

Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui

repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations

concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur

structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct

Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes

vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)

lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux

structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees

inteacutegreacutees dans le systegraveme cible

Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et

une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant

logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape

drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans

un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de

donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme

logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees

neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par

source ou un middleware pour toutes les sources

73

Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees

Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave

effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct

de donneacutees Ce processus de transformation requiert la mise en correspondance

structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de

lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-

scheacutemas ou appariement de scheacutemas (schema matching)

Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent

du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est

interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de

scheacutema et de correspondance inter-scheacutemas

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute

S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et

G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents

types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un

eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison

drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs

(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles

(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel

74

Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes

qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les

critegraveres de classification suivants (Rahm and Bernstein 2001)

Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir

des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au

niveau du scheacutema

Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des

eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-

structures complexes de scheacutemas

Langage versus contrainte Les correspondances peuvent se baser sur des

approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute

de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)

Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la

relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre

scheacutema ceci menant agrave quatre cas 11 1n n1 nm

Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne

reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires

telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees

Il faut noter que certains algorithmes effectuent les correspondances en se basant

sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel

Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W

Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement

transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la

deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement

dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs

caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des

systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car

les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)

Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP

pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes

sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des

modifications freacutequentes et des volumes de donneacutees par transaction relativement faible

Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour

preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une

75

reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de

modification

Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont

qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est

reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes

sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser

une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de

grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus

complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas

correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux

de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est

entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil

contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de

chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de

lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une

alimentation reacutefleacutechie et planifieacutee dans le temps

324 Les modegraveles des entrepocircts de donneacutees

La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees

transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de

donneacutees repose sur un modegravele multidimensionnel de donneacutees

A) La modeacutelisation conceptuelle

La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association

(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)

en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de

nouvelles entiteacutes

De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave

comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation

E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute

(1) Concept de fait de dimension et de hieacuterarchie

Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse

des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que

lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur

fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction

tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees

76

en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62

Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors

qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble

drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs

Figure 13 Exemple de cube de donneacutees

Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les

attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une

dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes

relations drsquoordre entre ses attributs

Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois

dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps

Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la

proteacuteine

(2) Modegraveles en eacutetoile en flocon et en constellation

A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees

simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure

est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente

visuellement une eacutetoile on parle de modegravele en eacutetoile

61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres

correspondant aux formations faisant varier les mesures de lactiviteacute 62

Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63

Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail

77

Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce

scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions

autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute

eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions

Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la

modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la

modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de

dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et

al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions

Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au

sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la

normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball

2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des

dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend

plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema

augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte

Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en

trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en

quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo

Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui

utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs

faits et des dimensions communes (Benitez-Guerrero et al 2001)

B) La modeacutelisation logique

Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation

multidimensionnelle Il est possible dutiliser

un systegraveme de gestion de bases de donneacutees existant tels que les SGBD

relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)

un systegraveme de gestion de bases de donneacutees multidimensionnelles

(MOLAP)

Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de

bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line

Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere

suivante

Chaque fait correspond agrave une table appeleacute table de fait

Chaque dimension correspond agrave une table appeleacutee table de dimension

78

Figure 14 Modegravele en eacutetoile

Figure 15 modegravele en flocon

Figure 16 Modegravele en constellation

79

Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes

et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension

contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la

table de fait

Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de

lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel

se traduit ainsi

Chaque fait correspond agrave une classe appeleacutee classe de fait

Chaque dimension correspond agrave une classe appeleacutee classe de dimension

Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on

utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par

(Object Data Management Group) lrsquoODMG64

Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme

multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD

multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce

tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant

aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-

calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les

systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer

Les systegravemes MOLAP apparaissent comme une solution acceptable pour le

stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne

deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont

consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression

doivent ecirctre utiliseacutees

Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de

redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les

utiliseacutees sont

Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun

des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un

ensemble de faces diffeacuterents

Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune

dimension

Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune

repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble

64

wwwodmgorg

80

de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de

dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune

opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas

connu agrave lrsquoavance

C) La modeacutelisation de donneacutees XML multidimensionnelles

Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards

tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant

disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent

chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage

drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un

environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees

XML est de les convertir en donneacutees relationnelles Cependant mettre en place un

entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche

inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes

dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery

Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and

Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction

pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML

Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque

document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme

respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la

validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier

repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile

ou en flocons de neige

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing

81

La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave

lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel

multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute

en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette

approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur

leurs contenus

Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document

XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun

ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et

hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au

modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML

325 Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis

les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest

reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les

donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et

non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en

œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de

lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique

(Davidson et al 2001 Hernandez and Kambhampati 2004)

La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut

stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees

provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la

gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo

La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des

donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par

thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en

consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs

sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un

thegraveme

La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au

sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes

sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement

82

La transformation de donneacutees lors de lrsquointeacutegration Le processus de

transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de

reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration

verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce

processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de

reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema

La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles

localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees

provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte

(2) Problegravemes rencontreacutes

Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction

de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des

sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction

des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette

tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection

drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment

de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct

Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages

des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees

des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)

Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport

aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et

comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes

increacutementaux

Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car

les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations

ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches

drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique

A) GUS

Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand

entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS

est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les

maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux

proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support

pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et

83

lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour

stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative

2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al

2007)

Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts

(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et

annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de

nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et

dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il

possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat

drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des

donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS

chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de

regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale

B) GEDAW

Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees

deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des

eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de

Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse

des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees

dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves

disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de

GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches

biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees

inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie

GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees

structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology

UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de

correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme

instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent

ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences

renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)

ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est

incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut

lui aussi eacutemettre des regravegles de nettoyage des donneacutees

65

httpplasmodborgplasmo 66

httpwwwcbilupenneduepcondb42 67

httpwwwncbinlmnihgovprojectsSNP

84

Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les

scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-

mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de

deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de

transformer les structures des sources vers une forme canonique (le scheacutema global) Dans

le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour

identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres

pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des

informations

C) BioWarehouse

BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de

construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de

bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de

BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot

Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le

chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de

lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de

BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source

correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le

chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la

seacutemantique et du scheacutema global

Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un

fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des

donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations

drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas

freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation

drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir

de diffeacuterents modules

Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema

relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou

commerciales comme ORACLE

68

httpbiocycorg 69

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

85

D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques

biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene

UniProt GO InterPro KEGG et OMIM

Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema

global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic

Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les

donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales

que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source

comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le

systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le

reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu

dans le scheacutema GAM

GenMapper propose une interface conviviale de conception de requecircte ougrave

lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il

choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur

GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de

deacutepart

GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes

drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche

drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees

qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations

sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types

drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la

creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP

Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits

correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations

et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees

en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-

down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations

GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les

analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper

70

httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71

httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

86

est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees

sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare

4 DISCUSSION

Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la

recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes

drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee

Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les

donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les

rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle

au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix

en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32

fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans

un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les

donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs

propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees

inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche

permettant de lutter efficacement contre les donneacutees inconsistantes provenant de

diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands

volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la

conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes

drsquoanalyses ulteacuterieures

Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des

approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches

conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct

deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside

dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour

Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de

lrsquoaccessibiliteacute de ces sources externes

La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration

horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires

et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes

sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de

compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes

ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne

87

peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et

qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des

principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de

maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune

source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un

certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent

de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes

De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le

modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les

avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees

biologiques et avons dresseacute un panorama des solutions existantes en informatique en

montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques

88

Deacuteuxieacute meacute Partieacute

89

90

CHAPITRE 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp

91

Chapitre 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes

donneacute eacutes deacute Pseacuteudomonas sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91

2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101

31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101

32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102

33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107

34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113

36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117

5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123

1 INTRODUCTION

Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties

sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si

depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour

ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte

92

lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre

drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et

techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en

informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un

entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-

structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques

meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit

drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus

biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes

conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la

litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les

avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees

(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave

certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent

motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de

recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des

donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce

domaine font souvent appel agrave des traitements trop complexes pour tourner sur des

donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester

sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique

est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres

et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui

est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le

meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un

systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour

exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une

bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees

peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur

La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la

deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des

donneacutees

La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout

nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de

PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs

formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs

du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre

exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees

publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une

eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees

93

geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees

cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence

pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les

sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les

donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave

identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees

La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est

drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de

donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes

reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global

de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees

provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour

Respecter la fiabiliteacute de lrsquoinformation

Respecter la coheacuterence des informations une mecircme donneacutees pouvant

provenir de deux sources diffeacuterentes il faut alors choisir la plus

judicieuse

Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de

maniegravere unique une donneacutee

Unifier la repreacutesentation des donneacutees

Veacuterifier la non-redondance des informations

Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer

les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral

lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)

lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des

sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et

seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin

drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et

autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des

donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement

logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de

transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de

donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration

ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-

based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute

effectueacutee automatiquement en se basant sur quelques API (Application Programming

Interface) de java

94

2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW

Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est

un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de

lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees

inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies

Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema

inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et

meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui

nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)

Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un

environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de

construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation

souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave

lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans

les approches top-down les scheacutemas des sources importent peu pour la conception du

scheacutema global Ils seront seulement pris en compte dans un second temps quand les

correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour

permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema

global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne

connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir

PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-

up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema

telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus

drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les

donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en

assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La

combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples

permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus

cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements

cellulaire

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW

Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees

comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases

de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et

de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les

95

diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees

meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du

niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations

complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque

source de donneacutees sa provenance son contenu et sa structure

211 Bases de donneacutees geacutenomique et proteacuteique

PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du

gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une

collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de

donneacutees

GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee

comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont

publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al

2011) Cette base de donneacutees est produite au sein de NCBI (National Center for

Biotechnology Information) comme une partie de la collaboration internationale

des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal

Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs

reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de

380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre

des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines

avec la taxonomie le geacutenome le mappage la structure et les domaines

drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed

GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format

XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour

speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des

gegravenes et des seacutequences soumises

Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de

donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus

(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines

leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les

donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est

met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut

suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant

189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les

donneacutees en format HTML XML et Fasta

72

httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml

96

PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation

Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des

informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur

les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC

contient principalement des informations deacutetailleacutees sur les structures des opeacuterons

et des promoteurs y compris une eacutenorme collection des sites de liaisons et de

facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison

reacutegulateurs est disponible et une matrice du poids de position (position weight

matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la

litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave

plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du

serveur du PRODORIC par la technologie SOAP via le protocole HTTP en

utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit

eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux

utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs

propres programmes

212 Bases de donneacutees meacutetaboliques

KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme

humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est

consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique

(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux

moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les

informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de

donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions

(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus

respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers

chimique

Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies

(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus

cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du

SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui

facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique

Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure

drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes

(Kanehisa et al)

74

httpwwwprodoricde

97

213 Bases de donneacutees Enzymatique

PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees

enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la

collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles

agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme

une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et

deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique

de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites

directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en

biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des

programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est

veacuterifieacutee manuellement par au moins un biologiste et un chimiste

Le contenu de BRENDA couvre des informations sur la fonction la structure

loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des

donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et

lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que

laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des

caracteacuteristiques de la structure

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de

PseudmonasDW

Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont

plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la

litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction

drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative

Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-

hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave

aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on

parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)

que drsquoentrepocirct de donneacutees (ou data warehouse)

Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des

donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema

inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine

le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct

98

Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa

complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser

notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour

une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les

instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees

drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM

(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est

baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware

nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de

cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans

le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques

qui sont accessible via le web (Briache et al 2012)

Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de

donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment

impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de

lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de

lrsquoarchitecture du systegraveme

La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves

aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)

Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al

2003)

Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un

flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest

acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit

drsquoune technologie informatique intergicielle (comprendre middleware) permettant

drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une

autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees

dans les applications des transformateurs qui manipulent les donneacutees et des mises en

correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est

lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW

Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont

uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos

Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre

des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees

dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW

est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque

source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers

99

occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un

adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte

approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements

suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de

donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les

fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave

partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP

Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de

performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de

lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees

au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les

combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux

obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au

format HTML

Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par

lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation

qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees

Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des

services web Finalement le systegraveme transforme les donneacutees extraites en un format

commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser

une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le

scheacutema global par des regravegles de correspondances deacutefinies (mappings)

Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle

en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons

aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un

entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du

systegraveme est citeacute dans la section suivante

75

httpjenaapacheorg 76

httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77

httpexistsourceforgenet

100

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW

101

3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE

LrsquoENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans

cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de

plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)

le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees

drsquoorigine

En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon

deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les

donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par

SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme

un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration

seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du

PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source

et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement

agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une

description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW

31 Scheacutemas de source

La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW

constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude

deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour

deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons

creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont

consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les

sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes

102

de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale

sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA

32 Services de donneacutees

Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees

et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration

(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees

accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute

comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons

deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons

deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du

Web

Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs

en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent

ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation

de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au

protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des

103

applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un

modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et

srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un

service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de

meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les

services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes

et reacuteutilisables raquo

Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la

fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture

adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service

Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le

protocole Web raquo

321 Architecture du service de donneacutees dans PseudmonasDW

Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)

Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de

diffeacuterentes sources de donneacutees

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW

Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux

sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document

104

XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa

seacutemantique comme un service web La seacutemantique du service Web inclut des informations

sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans

le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de

donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de

service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application

Programming Interface)

LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois

meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document

XML La structure du ce document doit satisfait les contraintes du scheacutema de la source

Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux

meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema

XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur

la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)

Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux

diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant

geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au

service Web La partie importante de la classe Service est de tenir la correspondance entre

la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de

donneacutees Autrement dit la classe service est responsable de mettre des correspondances

entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees

322 Impleacutementation du service de donneacutees dans PseudmonasDW

Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache

Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter

le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous

les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le

fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du

service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute

webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service

78

httptomcatapacheorg 79

httpwsapacheorgaxisoverviewhtml

105

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web

La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier

deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des

proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement

ltservicegt (Figure 22)

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web

Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont

Lrsquoattribut name indique le nom du service web

Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute

pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider

106

Java RPC qui permet drsquoexposer une classe Java quelconque en tant que

service Web

Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements

ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes

Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la

classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le

chemin vers la classe java compileacutee associeacutee au service Web (nous referons

ici agrave la classe Service)

Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes

exposeacutees par le service Web La valeur speacuteciale indique que nous avons

exposeacutes toutes les meacutethodes du serveur Web

La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service

dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil

drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur

de deacuteploiement du service via la commande suivante

java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd

-httphostnameportnumberwebServiceFolderNameservicesAdminService

Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService

WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute

effectueacutee par la saisie de la direction lsquohttphostnameportnumber

webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis

drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement

107

33 Scheacutema Inteacutegrateur du PseudmonasDW

Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de

sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche

deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de

lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les

donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute

effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des

sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct

est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des

informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune

redondance au niveau du scheacutema inteacutegrateur

Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des

informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour

identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons

appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du

scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema

global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

laquo Le scheacutema global correspond agrave la description des relations entre toutes les

donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de

leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo

(King et al 2008)

En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la

deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel

modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre

exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW

Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la

reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

(Figure 24)

108

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW

Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un

scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une

interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une

ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema

conceptuel

Une ontologie de domaine est une laquo description intentionnelle de ce qui nous

connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des

concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine

de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre

domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses

caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une

terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure

lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts

Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees

par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui

modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel

simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui

repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les

proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie

109

peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la

cateacutegorie des concepts relieacutes aux sources de donneacutees

Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les

entiteacutes biologiques (par exemple les classes gene genome protein

enzymehellip)

Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes

reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple

le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans

lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de

donneacutees originales Ce type de concept a un rocircle tregraves important pour garder

les traces de donneacutees dans PseudmonasDW

Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de

proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les

individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype

properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de

PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes

des objets

Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au

niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les

eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des

objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees

Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur

drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation

speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code

pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate

(Roychoudhury et al 1992)

Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase

sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo

algU reacutegule le gegravene algD

Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes

abreacuteviations que leurs gegravenes

Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif

Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132

110

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)

A partir de cet exemple nous pouvons deacuteduire

Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo

Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux

concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo

Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts

lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo

pour le concept lsquoEnzymersquo

Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du

concept lsquoProteinrsquo

Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie

standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de

OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de

domaine qui preacutesente une simple hieacuterarchie des concepts

34 Correspondances seacutemantiques entre les scheacutemas

En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin

drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements

approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de

ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une

111

des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees

(Toumani et al 2007)

Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As

View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des

sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente

une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue

deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de

donneacutees

Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de

sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de

correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de

donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que

nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA

P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath

Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie

En geacuteneacuterale nous avons deacutefinie trois types de mappings

112

Mapping des Classes ce type de mappings deacutefinie des associations entre les

classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere

suivante

XPath-Element-Location Ontology-Class-Name correspondence-

index

Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement

du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo

repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie

lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine

la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave

100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de

mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema

du BRENDA

ResultEnzymeEnzyme100

ResultEnzymeFunctional_ParameterKMKM100

Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les

proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il

srsquoeacutecrie comme suit

XPath-Domain-Location XPath-value-Location Ontology-Domain-

Name Property-Name correspondence-index

Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du

scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment

lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son

rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent

respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la

proprieacuteteacute de type de donneacutees lsquohasValuersquo

ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional

_ParameterKMKM_ValueKMhasValue100

ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu

nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal

ue100

Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes

drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere

suivante

113

XPath-Domain-Location XPath-Range-Location Ontology-Domain-

Name Ontology-Range-Name Property-Name correspondence-index

Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo

deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la

proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo

et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau

de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet

Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee

au scheacutema de source

ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti

onal_ParameterhasFunctionalParameter100

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web

Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des

infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de

programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application

distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour

mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter

tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains

drsquoentre eux

Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par

le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration

de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est

baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic

Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de

base pour construire des applications de Web seacutemantique il est disponible en tant que

serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour

consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)

Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le

meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire

seacutemantique (Semantic Directory)

Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et

al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure

27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO

est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les

relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV

114

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core

Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum

des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique

Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents

types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core

Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware

pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)

getOntology( url) listOntologies() and listOntologies(concept)

Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies

enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les

impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les

correspondances (mappings) entre le scheacutema de cette ressource et les ontologies

enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux

utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(

serviceName url queryMethod schemaMethod))

Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface

drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies

Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux

diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos

services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a

permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre

disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et

115

solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de

deacutetail dans la section 36)

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM

36 SB-KOM System Biology Khaos Ontology-based Mediator

Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un

systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute

SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes

2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a

eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des

sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est

composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et

lrsquoeacutevaluateurinteacutegrateur

Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et

coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des

116

reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et

assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes

provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats

conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en

terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type

de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient

les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de

domaine

Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des

plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans

geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees

pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees

Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il

y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de

domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des

scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees

seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme

correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath

sont actives dans la proprieacuteteacute

Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte

conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de

concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres

Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous

1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux

groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats

ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux

arguments (les proprieacuteteacutes)

2 Construire GS un ensemble de combinaisons entre les deux groupes en se

basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave

cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes

3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les

mapping enregistreacutees au niveau de SD-Core

4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les

arguments preacutedicats

a La variable instancieacutee constitue le nœud racine

b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour

la variable instancieacutee et les eacuteleacutements qui ne contiennent que la

variable instancieacutee (sans les autres variables) seront passeacutes au nœud

courant et eacutelimineacutes de GS

117

c Les eacuteleacutements qui contiennent une autre variable en plus de celle

instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres

nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees

seront repreacutesenteacutes par drsquoautres variables qui seront des variables

instancieacutees

d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour

chaque nouvelle variable instancieacutee

LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de

requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes

dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de

lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans

lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees

souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit

des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant

les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de

services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie

des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de

domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de

requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations

inutiles

4 PROCESSUS ETL DANS PSEUDOMONASDW

Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer

comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus

drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise

par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive

suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct

Ans(PEOGPW)-

Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym

e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)

ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn

(PPW)

Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee

lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un

organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de

cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies

118

meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des

donneacutees sur le gegravene qui code pour elle

Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en

terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de

donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P

Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient

les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de

cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de

donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism

IsEnzyme CodedBy et ParticipateIn) (Figure 29)

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge

La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et

qui sont relieacutees aux

Organism par le biais de la relation ForOrganism

Pathway par la relation ParticipateIn

Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi

agrave la classe Organism par la relation ForOrganism

Gene par la relation CodedBy

Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une

fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au

planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la

119

requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique

lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan

drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un

ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les

preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et

appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par

la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par

le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes

possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3

A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire

des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables

instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux

variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave

exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave

lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut

pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend

Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe

agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la

proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils

deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees

lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations

ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus

lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend

au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees

120

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte

Groupe Sous-requecircte Service de Donneacutees

G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA

Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors

que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque

nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes

par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-

requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave

lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter

Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant

Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour

notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la

proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le

nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de

classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques

dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-

requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de

donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee

avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher

les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce

que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le

service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)

parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG

Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments

(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes

lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo

A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees

extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des

instances des scheacutemas XML des sources sous-jacentes Le composant

Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles

121

de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine

enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de

domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles

sont produites de services de donneacutees diffeacuterents Afin de les associer

lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au

niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de

domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant

EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat

obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees

extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est

automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java

(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-

db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees

XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de

donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW

122

Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL

(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees

souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les

services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la

transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les

instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer

dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La

derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a

permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif

(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein

de PseudmonasDW

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

123

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

5 DISCUSSION ET CONCLUSION

Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels

du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en

bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et

donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui

caracteacuterisent les donneacutees biologiques

Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et

analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon

doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus

quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont

pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques

caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique

De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus

complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de

processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute

La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie

par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel

environnement

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de

Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de

multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement

drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et

reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes

124

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes

Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour

extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs

forment une partie importante dans les services de donneacutees qui fournissent des moyens

pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de

donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une

interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les

donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM

Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous

somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui

offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De

cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance

(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema

inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de

domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts

et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de

lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement

aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees

dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques

bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration

seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs

avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement

stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre

part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le

meacutediateur

Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que

leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se

distingue des autres sur diffeacuterents points

125

Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une

diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de

connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique

et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des

donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de

GO

Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement

adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique

appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans

PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema

global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema

afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une

modification profonde du scheacutema

Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des

sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des

donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas

la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la

non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute

Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation

Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne

maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans

PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local

dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

126

CHAPITRE 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp

127

Chapitre 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes

Pseacuteudomonas Sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163

1 INTRODUCTION

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces

bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de

certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee

par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et

chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute

de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de

Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique

128

Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de

donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme

Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI

Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82

National Center for Biotechnology Information (NCBI) Microbial Genomes83

(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de

donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques

sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne

pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que

Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site

Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune

grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent

sur le suivi des changements des annotations et de permettre leur comparaison entre les

espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part

Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees

fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de

donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et

fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais

manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les

voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas

la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees

qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas

aeruginosa PAO1

Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le

chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui

regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece

de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour

une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase

de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les

acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique

aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de

PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires

concernant les espegraveces de Pseudomonas

80

httpimgjgidoegov 81

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82

httpwwwxbaseacuk 83

httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84

httpwwwmicrobesonlineorg 85

httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86

httpwwwpseudomonas-syringaeorg 87

httpwwwpseudomonascom

129

2 MODEacuteLISATION DE PSEUDOMONASDW

Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il

est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de

passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les

proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle

dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de

nombreux choix qui auront des reacutepercussions importantes dans la suite

La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux

drsquoabstraction diffeacuterents

Modegravele conceptuel repreacutesente le contenu de la base en termes

conceptuels indeacutependamment de toute consideacuteration informatique

Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un

scheacutema propre agrave un type de base de donneacutees

Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et

drsquoaccegraves aux donneacutees de la base

La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des

systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins

des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle

consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux

domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains

aspects des systegravemes physiques ou humains et de leur environnement

Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee

gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling

Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et

son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques

et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur

lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par

ce langage pour la conception de PseudomonasDW

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW

Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de

PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une

88

Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage

130

fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle

joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)

et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun

utilisateur exteacuterieur le voit

Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur

(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le

biologiste)

Table4 La liste des acteurs

Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via

lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies

par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit

Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en

introduisant son URL

Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des

mots cleacutes via son interface web

Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en

utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme

a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)

Table5 les cas drsquoutilisation de lrsquoutilisateur

Acteur Cas drsquoutilisation

Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet

PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web

Administrateur Le superviseur du systegraveme

Cas drsquoutilisation

Etablissement drsquoune connexion avec le systegraveme

Interrogation du systegraveme

Analyse de donneacutees

131

b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)

Figure 33 Le diagramme de cas dutilisation de lutilisateur

PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees

stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du

PseudomonasDW sont comme suit

Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par

lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du

systegraveme

Construction du reacutesultat

Translation du reacutesultat en un format lisible par lrsquoutilisateur

a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)

Table 6 les cas drsquoutilisation de PseudomonasDW

Cas drsquoutilisation

Translation de la requecircte

Construction du reacutesultat

Translation du reacutesultat

132

b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW

Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer

nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser

lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent

le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit

Inteacutegration de donneacutees au sein de PseudomonasDW

Nettoyage de donneacutees en eacuteliminant les redondances

Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de

donneacutees en fonction des sources originales

Maintenance de lrsquoentrepocirct de donneacutees

Maintenance de lrsquointerface Web

Ajout des fonctionnaliteacutes en cas de besoin

a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)

Table 7 les cas drsquoutilisation de lrsquoadministrateur

Cas drsquoutilisation

Inteacutegration de donneacutees

Nettoyage de donneacutees

Mise agrave jour de donneacutees

Maintenance de PseudomonasDW

Maintenance de lrsquointerface Web

Ajout de fonctionnaliteacutes

133

b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)

Figure 35 Le diagramme de cas dutilisation de ladministrateur

22 Diagrammes de seacutequence du systegraveme PseudomonasDW

Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets

selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects

dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes

sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute

drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du

Siemens Pattern Group (Buschmann et al 1996)

Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des

messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW

(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les

diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son

reacutecepteur

134

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur

Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de

PseudomonsDW

message eacutemetteur reacutecepteur

1 Demande de connexion Utilisateur Web app

2 Etablissement de connexion Web app Utilisateur

3 Envoi de requecircte via des formulaires HTML Utilisateur Web app

4 Reacuteception de requecircte Web app Web app

5 Geacuteneacuteration de requecircte XQuery Web app Web app

6 Envoi de la requecircte XQuery Web app PDW DB

7 Interrogation des indexes PDW DB PDW DB

8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB

9 Construction de reacutesultat XML PDW DB PDW DB

10 Transformation de reacutesultat de XML en XHTML PDW DB Web app

11 Affichage de reacutesultat en forma XHTML Web app Utilisateur

135

23 Diagramme de classes du systegraveme PseudomonasDW

Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la

modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les

composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des

eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations

Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les

diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de

la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir

les diffeacuterentes classes et relations composant notre diagramme de classe

Le diagramme de classe de PseudomonasDW est constitueacute de six classes

principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)

auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de

raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous

a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses

diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des

bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes

en trois sections la section supeacuterieure contient le nom de la classe la section centrale

deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les

diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation

qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui

sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de

composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base

3 IMPLEMENTATION DE PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese

est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de

Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les

applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources

multiples

Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre

diviseacutes en deux familles (Mahboubi et al 2009)

La premiegravere famille propose une modeacutelisation multidimensionnelle pour les

entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en

eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des

dimensions et offrent un support pour des outils danalyse

136

Les approches de la seconde famille abordent la probleacutematique de lentreposage de

documents XML Elles perccediloivent un entrepocirct XML comme une collection de

documents XML

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous

sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les

donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML

Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML

Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des

documents XML obtenus de la transformation des instances RDF au niveau de notre

entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons

donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases

de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees

XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)

31 Organisation des bases de donneacutees de PseudomonasDW

Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du

genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base

de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection

des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees

selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des

scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce

modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de

lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de

PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons

nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo

137

Figure 37 Le diagramme conceptuel de PseudomonasDW

138

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW

Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees

Genomes complets

Pseudomonas aeruginosa PAO1 6264404 5682 5556

Pseudomonas aeruginosa M18 6327754 5764 5684

Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269

Pseudomonas aeruginosa LESB58 6601757 6061 5908

Pseudomonas aeruginosa PA7 6588339 6369 6246

Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886

Pseudomonas fluorescens PfO-1 6438405 5829 5714

Pseudomonas fluorescens Pf-5 7074893 6233 6137

Pseudomonas fluorescens SBW25 6722539 6106 5921

Pseudomonas fluorescens F113 6845832 5953 5862

Pseudomonas putida F1 5959964 5403 5245

Pseudomonas putida GB-1 6078430 5529 5408

Pseudomonas putida KT2440 6181863 5516 5350

Pseudomonas putida W619 5774330 5309 5182

Pseudomonas putida BIRD-1 5731541 5046 4960

Pseudomonas putida S16 5984790 5307 5171

Pseudomonas syringae pvphaseolicola 6112448 5437 5172

Pseudomonas syringae pvtomato 6397126 5688 5481

Pseudomonas syringae pvsyringae 6093698 5220 5089

Pseudomonas stutzeri A1501 4567418 4210 4128

Pseudomonas stutzeri DSM 4166 4689946 4372 4301

Pseudomonas stutzeri ATCC 17588 4547930 4287 4181

Pseudomonas entomophila L48 5888780 5275 5134

Pseudomonas mendocina ymp 5072807 4704 4594

Pseudomonas mendocina NK-01 5434353 5035 4954

Pseudomonas brassicacearum NFM421 6843248 6176 6081

Pseudomonas fulva 12-X 4920769 4540 4459

Genomes incomplets

Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207

Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905

Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221

Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096

Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402

Pseudomonas chlororaphis - - 218

Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts

(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie

meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements

figureacutes directement apregraves lrsquoeacuteleacutement racine

Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur

organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees

correspondante

Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au

gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee

Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees

sous lrsquoeacuteleacutement laquoProteinDataraquo

139

Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans

PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte

deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes

Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les

diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans

lrsquoentreacutee

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1

32 Impleacutementation des bases de donneacutees de PseudomonasDW

En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees

sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML

deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la

version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome

qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute

Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des

servlets pour lrsquoaccegraves distant

89

httpjettycodehausorgjetty

140

La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de

charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents

XML dans 33 collections une collection pour chaque espegravece entreposeacute dans

PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre

application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery

Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de

fonctions de XQuery

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW

90

XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML

141

4 INTERFACE WEB DE PSEUDOMONASDW

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

41 Les Moteurs de rechercheacute dans PseudomonasDW

Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des

moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees

XML natives

Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les

pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur

quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute

qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de

recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de

recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas

parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu

laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ

speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-

down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la

proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave

minimiser le temps et la complexiteacute de la recherche

Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la

possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce

formulaire de recherche ou moteur de recherche propose des champs de recherche

multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de

Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein

Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons

aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs

espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la

possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees

Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant

de 1 agrave 33

142

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche

143

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute

144

Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue

nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave

quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de

donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML

et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues

HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a

eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et

convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de

PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans

quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis

Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML

Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta

Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3

42 Les entreacutees de Pseudomonas DW

Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq

sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la

section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont

listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune

section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de

PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee

dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails

des cinq sections

La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces

informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la

langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant

pour les proteacuteines et les ARN

La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en

question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom

scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les

diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la

seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de

transcriptions les sites de liaison et les sites de mutations ou de modification Cette section

offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du

gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A

partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage

145

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524

146

La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle

contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui

permet un affichage et une lecture tregraves simple Les informations de cette section sont

repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la

proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et

lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes

caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les

reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que

la seacutequence peptidique de la proteacuteine

La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine

deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission

numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees

enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions

catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats

et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des

informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des

informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des

paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo

La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans

lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement

propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de

donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)

lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie

meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique

preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les

composants et les modules de la voie meacutetabolique

Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les

entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou

lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo

deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas

(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis

Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la

proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la

retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la

proteacuteine dans des voies meacutetaboliques

147

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW

Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees

biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types

Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees

bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper

ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant

Ces outils doivent donc ecirctre

Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet

Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs

Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre

de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre

obligeacute de jongler avec diffeacuterentes sources dinformations

Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des

biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les

premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les

deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la

visualisation des annotations associeacutees Cette classification est toutefois quelque peu

scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de

donneacutees outils dinterrogation et outils de navigation sur le geacutenome

Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation

aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes

agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique

quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce

manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et

inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre

outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires

entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces

stockeacutees dans PseudomonasDW

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)

Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas

facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs

points forts et plusieurs faiblesses

91

DataBank browsers 92

Genome browsers

148

Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente

la meilleure application pour la geacutenomique comparative mais dautre part un autre

navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec

beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de

deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et

qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest

pas aussi riche que Ensembl

Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux

besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave

Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen

attentif

Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur

geacutenomique pour PseudomonasDW

Ensembl est toute une application libre de droit dauteur sur son code source

qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le

neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute

et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse

ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et

la deacutecouverte et la reacutesolution de bugs plus difficile

Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des

avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute

que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le

fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans

le site Web Or la plupart des bases et banques de donneacutees geacutenomiques

existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme

navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs

utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le

trouveront plus aiseacute agrave manipuler

Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur

geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des

geacutenomes en plus de la rapiditeacute qui est indispensable

Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs

geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux

autres navigateurs (Sen et al 2010)

93

httpgmodorgwikiGBrowse

149

511 GBrowse Vue geacuteneacuterale

GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui

correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de

donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord

speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des

subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut

national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License

(ou GPL)

GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation

graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres

eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives

comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave

ADN GBrowse propose les fonctionnaliteacutes suivantes

vue globale et vue deacutetailleacutee du geacutenome

deacutefilement zoom et centrage

utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien

personnaliseacutees

joindre une URL arbitraire agrave une annotation

ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur

final

recherche par ID annotation nom ou commentaire

connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95

support multi-langues

prise en charge des annotations agrave partir du format GFF96

persistance des paramegravetres de session agrave session

plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de

nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des

cartes de restriction eacutediter des fonctions)

512 Installation de GBrowse

Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous

avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite

lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons

eu besoin drsquoinstaller

94

httpwwwbiosqlorgwikiMain_Page 95

httpgmodorgwikiChado_-_Getting_Started 96

httpgmodorgwikiGFF

150

Apache Web Server97

Perl 598

Les modules de Perl suivants

o GCI

o GD

o DBI

o DBD mysql

o Digest MD5

o Text shellwords

Bioperl99

Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi

drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une

installation automatique de GBrowse

adminadmin~$ sudo apt-get install gbrowse gbrowse-calign

gbrowse-data

La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les

donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de

gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec

sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape

drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des

adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature

que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD

le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est

le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations

au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer

la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB

SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le

plus reacutecent des adaptateurs et le plus recommandeacute

513 Creacuteation et peuplement des bases de donneacutees MySQL

Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une

eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par

PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque

chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees

relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce

97

httphttpdapacheorg 98

httpdevperlorgperl5 99

httpwwwbioperlorgwikiMain_Page

151

contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la

banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos

besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers

GFF3

La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de

donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait

la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans

PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees

pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees

MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par

lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse

adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn

dbimysqlDB_Name --user root --password

varlibgbrowsedatabasesfilegff3

La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles

soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de

fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la

forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de

GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui

152

srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le

paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de

configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi

nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour

donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante

Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse

nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un

onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave

lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil

GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage

reacutesultante

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011

153

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW

521 Blast Vue geacuteneacuterale

Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences

(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une

seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme

dun package composeacute des programmes suivants

blastn blast nucleacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques

blastp blast proteacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

proteacuteiques

blastx blast nucleacuteique vs proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

proteacuteiques

tblastn blast proteacuteique vs nucleacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

nucleacuteiques

tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences

nucleacuteiques

Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse

comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir

teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une

base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme

lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle

base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA

Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais

son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct

de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees

proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute

une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette

application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de

le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web

154

522 La fonctionnaliteacute du Blast

Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les

seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la

page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de

PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans

PseudomonasDW

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW

La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la

possibiliteacute de PrimeblasterPrime ses seacutequences contre

Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences

(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences

agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees

comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le

choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la

partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses

extreacutemiteacutes

Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire

de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette

155

option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des

bases de donneacutees stockeacutees au niveau de PseudomonasDW

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW

156

Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java

lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en

extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le

sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs

drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi

deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement

une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui

sera retourneacutee agrave lrsquoutilisateur via son navigateur Web

Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral

Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme

de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une

petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine

lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes

seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession

dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les

scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en

deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage

drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement

obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple

drsquoalignement

157

Figure50 Exemple de reacutesultat de Blast

6 PDWiki

Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons

deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de

donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des

informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies

meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts

diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive

Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les

Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous

introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa

maniegravere drsquoaccegraves

158

61 Geacuteneacuteraliteacute sur les Wikis biologiques

Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat

sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web

sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre

simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun

navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est

maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des

donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis

biologiques (bio-wikis) comprennent

Le deacuteveloppement collaboratif et le partage des connaissances

Lrsquoannotation collaborative de contenus de bases de donneacutees

La creacuteation collaborative de contenus de bases de donneacutees

Le deacuteveloppement collaboratif et le partage de la documentation et des

connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un

consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des

nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de

conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont

geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de

recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets

biologiques speacutecialiseacutes

Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait

que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement

coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de

donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux

utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats

indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler

cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien

que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de

donneacutees elles-mecircmes restent inchangeacutees

La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans

les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de

donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement

deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums

et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite

100

httpwwwwikipediaorg

159

62 PDWiki Infrastructure et contenue

PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki

baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et

correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des

extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de

diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104

automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de

MediaWiki

MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de

nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen

des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une

bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de

MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le

principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des

bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de

lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La

classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees

de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe

lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo

est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure

geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec

PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle

elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo

PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de

PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le

premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations

suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour

chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de

plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas

limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et

lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus

La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee

correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans

PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le

101

httpwwwmediawikiorgwikiMediaWiki 102

httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103

httpwwwmediawikiorgwikiExtension_Matrix 104

httpenwikipediaorgwikiWikipediaBots 105

httpjwbfsourceforgenet

160

nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans

PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas

modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir

PseudmonasDW

La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle

appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece

Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page

speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations

suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom

de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au

moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo

La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque

espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page

lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est

conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW

Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les

utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par

lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils

peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces

informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les

interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie

de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les

sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies

meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs

peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des

reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les

activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier

les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des

informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents

composants dans la section lsquoPathwaysrsquo

Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources

dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et

contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee

161

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW

lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils

contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo

162

pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la

page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease

alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des

gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)

lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation

ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de

certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une

liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de

cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene

Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo

Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie

meacutetabolique apparaissant dans une page lsquoPDWEPrsquo

63 Comment naviguer dans PDWiki

Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la

recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des

pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur

163

gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct

sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est

de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de

recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les

pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au

sein de PDWiki en utilisant le formulaire de recherche

Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque

espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave

une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre

PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible

daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa

Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire

de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple

et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a

plusieurs avantages certains dentre eux sont

Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo

quand quelquun fait des modifications au niveau des pages de PDWiki

Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et

une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres

utilisateurs

Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages

qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106

7 DISCUSSION

Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes

modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm

2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves

Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de

Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans

cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base

de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des

bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire

agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur

lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les

plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de

106

httpwwwmediawikiorgwikiManualWatchlist

164

Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en

comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees

PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees

laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre

pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines

interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait

ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base

de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee

eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de

PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des

informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees

aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de

PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies

meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des

informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c

oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation

oxydative et la voie meacutetaboliques

Dautre part PseudomonasDW fournit des informations sur un ensemble plus

vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux

ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces

sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas

aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1

Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM

4166 et Pseudomonas chlororaphis

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

165

CONCLUSIONS ET PERSPECTIVES

166

Conclusions eacutet peacuterspeacutectiveacutes

Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante

bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3

comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon

rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur

mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile

et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P

syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain

Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des

infections pulmonaires mortelles chez les patients atteints de fibrose kystique

Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la

recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes

geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations

Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une

heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont

actuellement disponibles publiquement les types de donneacutees sont divers et les ressources

sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent

une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour

deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour

deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des

formats plus standard tels que XML (eg GenBank) A noter que les banques proposent

souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats

est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)

objet (eg Gus) ou semindashstructureacute (eg GenBank)

Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier

lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-

Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la

proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de

deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la

167

confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une

mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque

Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les

langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)

dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des

langages structureacutes tels que SQL (Genopage) ou OQL (Gus)

La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations

lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible

leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la

bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources

de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette

automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine

pour une recherche plus efficace des informations et une meilleure exploitation des

reacutesultats

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute

proposeacutees les approches navigationnel entrepocirct et meacutediateur

Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont

extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les

deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des

sources ce sont des portails et des meacutediateurs

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement

les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

168

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement

inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le

cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe

KHAOS de lrsquouniversiteacute de Malage

Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de

donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les

sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent

autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees

biologiques

Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des

sources de donneacutees biologiques et comportent une description des divers niveaux

drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des

solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme

navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine

entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une

inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine

biologique afin de proposer une solution drsquointeacutegration simple et flexible

Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre

des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin

drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee

1 REacuteSUMEacute DES CONTRIBUTIONS

Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne

fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur

exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se

sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent

169

principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que

possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers

et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos

travaux concernent plusieurs points

Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees

biologiques de Pseudomonas Sp

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas

requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de

donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi

proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees

heacuteteacuterogegravenes

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW

integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq

sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot

BRENDA et KEGG

Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les

donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie

importante dans les services de donneacutees qui fournissent des moyens pour interroger et

correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le

processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des

requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les

transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services

de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees

Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce

manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine

de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute

utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de

donneacutees un service pour une source de donneacutees

PseudomonasDW integravegre des sources de donneacutees offrant des informations

chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets

170

eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique

pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration

seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global

inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un

scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous

les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global

de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare

citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle

sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les

sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau

de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune

modification profonde

Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le

meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute

notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a

joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM

Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation

preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances

permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances

retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation

automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de

donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part

les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une

interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees

sont virtuellement acheveacutees en utilisant le meacutediateur

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

171

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune

installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave

certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige

une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse

surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la

plateforme Linux

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes

baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents

XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui

contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents

XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement

(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33

collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

172

Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques

pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons

incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il

affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des

gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est

un programme permettant de reacutealiser des alignements et des comparaisons locaux entre

deux seacutequences (nucleacuteiques ou proteacuteiques)

PseudomonasDW contient 170000 entreacutes et fournit des informations sur un

ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave

10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome

database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa

NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244

Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC

17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis

La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les

voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies

et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des

sections speacutecifiques pour les enzymes et les voies meacutetaboliques

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

2 OUVERTURE ET PISTES DE RECHERCHE

La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave

disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves

nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension

anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre

deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant

Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et

consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette

thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs

173

Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous

focalisant sur plusieurs points particuliers

Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW

Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance

accordeacutee agrave la source et sa qualiteacute estimeacutee

Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la

performance des donneacutees stockeacutees au niveau de PseudomonasDW

Automatiser la recherche de correspondance entre eacuteleacutements des

scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour

rendre lrsquoajout des nouvelles sources de donneacutees plus facile

Concernant lrsquointeacutegration des donneacutees

Inteacutegrer non seulement des sources de donneacutees mais aussi des services

Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres

anneacutees dans le domaine biologique et les perspectives offertes

semblent tregraves prometteuses

Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de

preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour

fouiller et comparer les donneacutees inteacutegreacutees

174

GLOSSAIRE

175

Glossaireacute

Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois

nucleacuteotides (codons) dans lrsquoARN

ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation

geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le

chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN

macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des

chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement

(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN

formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se

dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du

pheacutenomegravene de reacuteplication

Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions

hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus

complexe

Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences

codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation

syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les

entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit

les sources de donneacutees biologiques

API (Application Programming Interface) Interface pour langages de programmation

mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme

pour par exemple communiquer ou extraire des donneacutees

ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de

ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une

seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de

transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques

Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences

comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour

deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions

drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui

permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des

proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes

Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non

Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule

drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune

hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les

cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion

176

agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la

division cellulaire

Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros

serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et

unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture

est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees

Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte

deacutecisionnel deacutecentraliseacute

Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de

donneacutees exemple dimension temporelle dimension proteacuteique hellip

Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur

conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme

moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs

du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur

DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par

Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document

SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu

constitueacute par leurs sous-eacuteleacutements et leurs attributs

Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les

organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est

fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype

Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le

geacutenome nucleacuteaire

Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central

de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines

notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes

de reacutegulation

Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee

numeacuterique

FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et

William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le

programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines

Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et

porteur drsquoune information geacuteneacutetique

Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece

Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties

drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome

177

GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et

distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix

HTML (HyperText Markup Language) Langage de description de pages Web Un standard

initieacute par le W3C et compatible tous systegravemes

Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes

Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement

diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble

Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN

correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation

Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position

choisie)

Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme

drsquoun scheacutema de donneacutees

MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant

une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui

explique les performances Dans le second les jointures entre les tables de dimension et de fait sont

effectueacutees au moment de la requecircte

OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place

drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une

cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs

dimensions

Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin

OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de

lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant

Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave

linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le

deacuteclenchement de la transcription) et un ou plusieurs gegravenes

OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par

lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et

collections

Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports

baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration

systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau

(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de

maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec

celui-ci

178

Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique

(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique

notamment Un comportement particulier tout comme une combinaison de comportements

peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou

plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes

et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un

caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou

moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement

deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son

alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse

existe eacutegalement)

Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui

apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations

auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul

Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique

Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave

30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent

des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=

le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour

assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de

lrsquoinformation

Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une

comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un

support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou

ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees

compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus

ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit

syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le

type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et

quantifieacutes

Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser

les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le

principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave

CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot

contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN

tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-

repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du

meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De

maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment

correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de

caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents

dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des

suppresseurs de tumeurs

179

Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir

du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un

support meacutetallique et analyseacutees par spectromeacutetrie de masse

ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de

lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles

Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc

sous une forme plus deacutetailleacutee

Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe

concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine

informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des

informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux

neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies

Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides

amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN

(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage

drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit

fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes

Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie

par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides

(polymegraveres de nucleacuteotides)

Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet

indeacutependamment des plates-formes et des langages sur lesquelles elles reposent

SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels

permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du

domaine drsquoapplication

Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier

des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de

masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe

reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport

massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines

scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages

biologie meacutedecine

SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de

programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans

des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut

extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de

donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus

complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de

180

modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de

donneacutees et daccegraves

Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance

lrsquoidentification des formes vivantes et leur rangement dans une classification

Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome

URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur

uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant

lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour

adresser les ressources du World Wide Web telles que des documents HTML des images ou des

sons

Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet

Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct

et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux

ordinateurs et aux humains de travailler en plus eacutetroite collaboration

XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et

de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications

en diffeacuterents environnements hardware et software

Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements

dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un

sur-ensemble de XPath

181

ANNEXES

182

Anneacutexeacute 1 UML

La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996

UML est une norme de lOMG (Object Management Group) qui est un consortium des

principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive

homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune

seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants

UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent

ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre

UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des

systegravemes informatiques

Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur

Modegravele des classes capture la structure statique

Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages

Modegravele des eacutetats exprime le comportement dynamique des objets

Modegravele de deacuteploiement preacutecise la reacutepartition des processus

Modegravele de reacutealisation montre les uniteacutes de travail

Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant

correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de

diagrammes

Diagramme des classes structure statique il repreacutesente les classes

intervenant dans le systegraveme

Diagramme des eacutetatstransitions comportement dune classe en termes

deacutetats

Diagramme dobjets repreacutesentation des objets (des occurrences des

classes) et de leur relations ils correspondent agrave des diagrammes de

collaboration simplifieacutes (sans envoi de message)

183

Diagramme des paquetages un paquetage eacutetant un conteneur logique

permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le

Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages

crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions

Diagramme de structure composite permet de deacutecrire sous forme de

boicircte blanche les relations entre composants dune classe

Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs

interactions

Diagramme de communication repreacutesentation simplifieacutee dun diagramme

de seacutequence se concentrant sur les eacutechanges de messages entre les objets

Diagramme global dinteraction permet de deacutecrire les enchaicircnements

possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de

diagrammes de seacutequences

Diagramme de temps permet de deacutecrire les variations dune donneacutee au

cours du temps

Diagramme des cas dutilisation il permet didentifier les possibiliteacutes

dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les

fonctionnaliteacutes que doit fournir le systegraveme

Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration

en termes dactions

Diagramme de composants repreacutesentation des composants physiques

dune application

Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les

steacutereacuteotypes des classes ou des packages

Diagramme de deacuteploiement repreacutesentation du deacuteploiement des

composants sur les dispositifs mateacuteriels

184

Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes

Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la

premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de

Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute

dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant

devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une

deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante

Une base de donneacutees XML native deacutefinit un modegravele logique pour un document

XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au

minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du

document

Une base de donneacutees XML native gegravere le document XML comme une uniteacute

fondamentale de stockage comme une ligne dans une table relationnelle

Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent

particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique

orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers

compresseacutes indexeacutes

La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de

donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain

nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de

donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de

lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc

La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale

dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible

qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents

lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des

bases de donneacutees XML actuelles

La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas

important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de

185

donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest

pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait

envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees

XML native comme eXist lrsquoa fait agrave ses deacutebuts

Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement

pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les

transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des

langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc

parfaitement dans notre approche entiegraverement baseacutee sur XML

186

Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute

Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de

donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate

Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute

sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace

drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience

drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel

Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage

propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves

actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est

compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un

processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une

application

eXist fournit un stockage sans scheacutema des documents XML dans des collections

hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des

documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs

peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents

contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement

de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification

rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-

descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de

chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement

les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de

documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions

La base de donneacutees convient bien aux applications manipulant des petites ou larges

collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute

conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant

lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes

XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath

187

et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre

autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres

Architecture drsquoeXist

eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement

agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents

XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale

Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement

seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des

courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et

les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques

comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles

possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un

ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et

XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du

cœur drsquoeXist

eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut

fonctionner comme un processus serveur autonome fournissant des interfaces http et

XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles

peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut

fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-

RPC SOAP109 et WebDAV110 sont fournis par les servlets

Figure 53 Architecture deXist copy Wolfgang Meier

107

httpxmlrpcscriptingcomspechtml 108

httpxmldb-orgsourceforgenetxapixapi-drafthtml 109

httpwwww3org2000xpGroup 110

httpwwwietforgrfcrfc2518txt

188

BIBLIOGRAPHIE

189

Bibliographieacute

Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125

Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary

Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442

Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410

Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381

Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29

Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress

Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press

Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520

Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155

Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE

Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178

Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37

Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15

Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863

Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314

190

Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104

Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333

Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille

Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7

Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53

Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet

Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons

Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192

Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates

Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences

Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193

Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93

Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69

Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis

Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148

Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306

Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie

Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592

Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74

191

Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87

Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345

Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979

Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy

Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique

Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531

Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572

Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53

Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822

Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc

Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432

Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20

Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57

Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128

Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68

Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469

Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris

Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73

192

Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research

Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8

Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788

Gautier C (1981) Nucleic acid sequences handbook Praeger

Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523

Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance

Griffith A (2005) Java XML and the JAXP In Wiley (ed)

Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928

Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174

Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264

Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153

Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511

Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9

Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119

Harold ER and Means WS (2004) XML in a Nutshell OReilly Media

Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA

Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915

Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60

Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190

Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448

Hunter J (2003) X is for Query Oracle Magazine

Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York

Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)

193

Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541

Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology

Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)

Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30

Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357

Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280

Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59

Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169

Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley

Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337

Kimball R (2002) data warehouse toolkit

Kimball R (2003) The Bottom-Up Misnomer

King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18

Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper

Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web

Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597

Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283

Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138

Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni

Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170

194

Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268

Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441

List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215

MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA

Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562

Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144

Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348

Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105

Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381

Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378

Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755

McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)

McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587

Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34

Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376

Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477

Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537

Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall

Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65

195

Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269

Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga

Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622

Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230

Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2

Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846

Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125

Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350

Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163

Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171

Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)

Rehm B (2009) Pseudomonas Wiley-VCH

Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557

Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996

Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149

Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84

Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010

Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696

Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236

Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243

Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871

196

Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York

Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186

Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188

Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141

Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298

Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73

Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110

Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276

Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298

Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis

Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717

Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49

Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488

Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6

Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150

Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373

Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33

197

Reacute feacute reacutenceacutes Inteacuterneacutet

198

Reacute feacute reacutenceacutes Inteacuterneacutet

(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml

AmiGO httpamigogeneontologyorgcgi-binamigogocgi

Apache Server httphttpdapacheorg

ArrayExpress httpwwwebiacukarrayexpress

ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm

Axis httpwsapacheorgaxisoverviewhtml

BioCyc httpbiocycorg

BioGrid httpthebiogridorg

Bioperl httpwwwbioperlorgwikiMain_Page

biosql httpwwwbiosqlorgwikiMain_Page

Blast httpblastncbinlmnihgovBlastcgi

Bots httpenwikipediaorgwikiWikipediaBots

BRENDA httpwwwbrenda-enzymesinfo

Chado httpgmodorgwikiChado_-_Getting_Started

ChEBI httpwwwebiacukchebi

CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

core httpdublincoreorg

CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast

dbEST httpwwwncbinlmnihgovdbEST

dbSNP httpwwwncbinlmnihgovprojectsSNP

DDBJ httpwwwddbjnigacjp

Dublin Core httpdublincoreorg

EBI httpwwwebiacuk

EcoCyc httpecocycorg

EMBL httpwwwemblde

EMBO httpwwwemboorg

ensEMBL httpwwwensemblorgindexhtml

Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric

Entrez httpwwwncbinlmnihgovsitesgquery

EPConDB httpwwwcbilupenneduepcondb42

eXist httpexistsourceforgenet

199

ExPASy httpexpasyorg

ExPASy httpexpasyorg

Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix

FASTA httpwwwebiacukToolssssfasta

Flybase httpflybaseorg

Garlic httpwwwalmadenibmcomcsgarlic

Gbrowse httpgmodorgwikiGBrowse

GDB httpgdbwwwgdborg

Genbank httpwwwncbinlmnihgovnuccore

GeneCards httpwwwgenecardsorg

GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame

GEO httpwwwncbinlmnihgovgeo

GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

GFF httpgmodorgwikiGFF

GO httpwwwgeneontologyorg

HGNC httpwwwgenenamesorg

IMG httpimgjgidoegov

inmon httpenwikipediaorgwikiBill_Inmon

InterPro httpwwwebiacukinterpro

Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml

JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

jena httpjenaapacheorg

Jetty httpjettycodehausorgjetty

JWBF httpjwbfsourceforgenet

KEGG httpwwwgenomejpkegg

LION Bioscience AG httpwwwbiochipnetcomnode1561

MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings

Medline httpwwwmedlinecom

MeSH httpwwwnlmnihgovmesh

MetaCyc httpmetacycorg

MGI httpwwwinformaticsjaxorg

Microbes Online httpwwwmicrobesonlineorg

MIPS httpwwwhelmholtz-muenchendeenibis

MySQL httpwwwmysqlcom

NCBI httpwwwncbinlmnihgov

NIH httpwwwnihgov

OBO httpwwwobofoundryorg

ODMG wwwodmgorg

OMIM httpwwwomimorg

ORACLE httpwwworaclecomindexhtml

OWL httpwwww3orgTR2009WD-owl2-primer-20090611

PDB httpwwwrcsborgpdbhomehomedo

200

peer-review literature httpenwikipediaorgwikiPeer_review

perl httpdevperlorgperl5

Pfam httppfamsangeracuk

PhosphGrid httpwwwphosphogridorg

Plasmodb httpplasmodborgplasmo

ProDom httpprodomprabifrprodomcurrenthtmlhomephp

PRODORIC httpwwwprodoricde

Proteacutegeacute httpprotegestanfordedu

Pseudomonas Genome Database httpwwwpseudomonascom

Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg

PseudomonasDW httpwwwpseudomonasdwkhaosumaes

PubMed httpwwwncbinlmnihgovpubmed

Qexo httpwwwxmlcompuba20030611qexohtml

RDF httpwwww3orgTRrdf-concepts

RDFS httpwwww3orgTRrdf-schema

RefSeq httpwwwncbinlmnihgovRefSeq

RiboWeb httphelix-webstanfordeduribowebhtml

SGD database httpwwwyeastgenomeorg

SRS httpsrsebiacuk

Tomcat httptomcatapacheorg

UML httpwwwumlorg

UMLS httpwwwnlmnihgovresearchumls

UniGene httpwwwncbinlmnihgovunigene

UniProt httpwwwuniprotorg

W3C httpwwww3org

watchlist httpwwwmediawikiorgwikiManualWatchlist

WebDAV httpwwwietforgrfcrfc2518txt

Wikipedia httpwwwwikipediaorg

xBASE httpwwwxbaseacuk

XML httpwwww3schoolscomxml

XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml

XML-RPC httpxmlrpcscriptingcomspechtml

XML-RPC SOAP httpwwww3org2000xpGroup

ZFIN httpzfinorg

Page 5: UNIVERSITE ABDELMALEK ESSAADI - IMIST

2

Reacutemeacutercieacutemeacutents

3

Reacutemeacutercieacutemeacutents

Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani

pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute

et aideacute tout au long de ses anneacutees de thegravese

Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-

encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de

recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches

Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger

mon travail

Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe

khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton

preacutecieux soutien

A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute

leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont

teacutemoigneacutes

Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec

une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton

encouragement

Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes

compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave

lrsquoavancement de ce travail

Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere

Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma

grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille

Briache

Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail

4

Sommaireacute

5

Sommaireacute

Introduction geacuteneacuterale 18

1 Problematique et motivation 19

2 CADRE ET BUTS DU TRAVAIL 23

3 Les pseudomonas 24

31 Caracteres geacuteneacutereaux 24

32 Pouvoir pathogegravene 26

33 Lutte biologique 27

4 Structure de document 28

Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30

1 Introduction 31

2 Eacutetat des sources 32

21 Varieacuteteacute des sources biologiques 33

22 Autonomie et capaciteacutes drsquointerrogation 35

3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37

31 Diversiteacute syntaxique 37

32 Diversiteacute seacutemantique 38

33 Diversiteacute des langages de requecircte 39

34 Diversiteacute des services 39

4 Eleacutements de standardisation 40

41 Format standards et nomenclatures 40

42 Ontologies 41

43 Meacutetadonneacutees 42

44 Langages et formalismes 43

Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46

1 Introduction 47

2 points de variation entre les approches drsquointeacutegration 49

21 Degreacute drsquointeacutegration 49

211 Approche agrave couplage serreacute 49

6

212 Approche agrave couplage lacircche 50

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50

221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50

222 Types drsquointeacutegrations seacutemantique 51

223 Approches ascendante et descendante 51

23 Mateacuterialisation des reacutesultats 52

24 Accegraves aux donneacutees 52

3 approches drsquointeacutegration en bioinformatique 52

31 Approche non mateacuterialiseacutee 53

311 Le systegraveme meacutediateur 53

312 Le systegraveme navigationnel 61

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70

321 Deacutefinition et Architecture 70

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74

324 Les modegraveles des entrepocircts de donneacutees 75

325 Adeacutequation Problegravemes rencontreacutes 81

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82

4 Discussion 86

Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de

Pseudomonas sp 90

1 Introduction 91

2 Vue Global sur le systegraveme PseudomonasDW 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94

211 Bases de donneacutees geacutenomique et proteacuteique 95

212 Bases de donneacutees meacutetaboliques 96

213 Bases de donneacutees Enzymatique 97

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101

31 Scheacutemas de source 101

32 Services de donneacutees 102

321 Architecture du service de donneacutees dans PseudmonasDW 103

7

322 Impleacutementation du service de donneacutees dans PseudmonasDW 104

33 Scheacutema Inteacutegrateur du PseudmonasDW 107

34 Correspondances seacutemantiques entre les scheacutemas 110

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113

36 SB-KOM System Biology Khaos Ontology-based Mediator 115

4 Processus ETL dans Pseudomonasdw 117

5 Discussion et conclusion 123

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

126

1 Introduction 127

2 MODEacuteLISATION de PseudomonasDW 129

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129

22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133

23 Diagramme de classes du systegraveme PseudomonasDW 135

3 IMPLEMENTATION DE PSEUDOMONASDW 135

31 Organisation des bases de donneacutees de PseudomonasDW 136

32 Impleacutementation des bases de donneacutees de PseudomonasDW 139

4 INTERFACE WEB DE PSEUDOMONASDW 141

41 Les Moteurs de rechercheacute dans PseudomonasDW 141

42 Les entreacutees de Pseudomonas DW 144

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147

511 GBrowse Vue geacuteneacuterale 149

512 Installation de GBrowse 149

513 Creacuteation et peuplement des bases de donneacutees MySQL 150

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153

521 Blast Vue geacuteneacuterale 153

522 La fonctionnaliteacute du Blast 154

6 PDWiki 157

61 Geacuteneacuteraliteacute sur les Wikis biologiques 158

62 PDWiki Infrastructure et contenue 159

63 Comment naviguer dans PDWiki 162

8

7 DISCUSSION 163

Conclusions et perspectives 165

1 Reacutesumeacute des contributions 168

2 Ouverture et pistes de recherche 172

Glossaire 174

Annexes 181

Bibliographie 188

Reacutefeacuterences Internet 197

9

INDEX DES FIGURES ET DES TABLES

FIGURES

Figure 1 Architecture dun systegraveme meacutediateur 54

Figure 2 Lapproche GAV (Global As View) 56

Figure 3 Lapproche LAV (Loacl As View) 56

Figure 4 Approche GLAV 57

Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62

Figure 6 Graphe de liens entre les sources 63

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65

Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67

Figure 9 Architecture de BioGuide 69

Figure 10 Architecture dun entrepocirct de donneacutees 71

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de

donneacutees 73

Figure 13 Exemple de cube de donneacutees 76

Figure 14 Modegravele en eacutetoile 78

Figure 15 modegravele en flocon 78

Figure 16 Modegravele en constellation 78

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le

systegraveme PseudmonesDW 103

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108

10

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre

conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux

relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et

les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et

lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la

formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet

sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles

de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en

haut des eacuteleacutements de lontologie en rouge 118

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc

contient des informations pour acceacuteder aux services de donneacutees 119

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat

final de leacutetape ETL au sein de systegraveme PseudomonasDW 121

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction

de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de

chargement de donneacutees au sei de PseudmonasDW 122

Figure 33 Le diagramme de cas dutilisation de lutilisateur 131

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132

Figure 35 Le diagramme de cas dutilisation de ladministrateur 133

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134

Figure 37 Le diagramme conceptuel de PseudomonasDW 137

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A

gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW

A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas

aeruginosa PAO1 139

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees

au niveau de PseudomonasDW 140

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne

la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de

seacutelectionner un champ speacutecifique de recherche 142

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections

Organism et Gene de lentreacutee PAE00524 145

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154

11

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles

lutilisateur peut choisir 155

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences

indeacutependamment des bases de donneacutees de PseudomonasDW 155

Figure50 Exemple de reacutesultat de Blast 157

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir

et annoter lentreacutee PAE00524 de PseudomonasDW 161

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de

PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162

Figure 53 Architecture deXist copy Wolfgang Meier 187

TABLES

Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54

Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117

Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130

Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131

Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140

12

ABREVIATION

13

ABREVIATION

ADN Acide Deacutesoxyribonucleacuteique

API Application Programming Interface

ASN Abstract Syntax Notation

BACIIS Biological And Chemical Information Integration System

BioGRID Biological General Repository for Interaction Datasets

BLAST Basic Local Alignment Search Tool

CGH Comparative genomic hybridization

ChEBI Chemical Entities of Biological Interest

CMR Comprehensive Microbial Resource

CPAN Reacuteseau Complet drsquoArchives Perl

CPL Collection Programming Language

CSS Cascading Style Sheets

CSUQ Computer System Usability Questionnaire

CYGD Comprehensive Yeast Genome Database

DAML DARPA Agent Markup Language

dbEST Expressed Sequences Tags databases

DDBJ DNA Data Bank of Japan

DTD Document Type Definition

EBI European Bioinformatics Institute

EcoCyc Encyclopedia of Escherichia coli

EMBL European Molecular Biology Laboratory

EMBO European Molecular Biology Laboratory

EPG Entity Path Generator

ETL Extraction transformation and loading

ExPASy (Expert Protein Analysis System

FTP File Transfer Protocol

GAM Generic Annotation Management

GAV Global As View

GDB Human Genome Databases

GEDAW Gene Expression DAta Warehouse

GenMapper Genetic Mapper

GEO Gene Expression Omnibus

GeWare Gene Expression Warehouse

14

GFF General Feature Format

GIMS Genome Information Management System

GLAV Generalized Local As View

GMOD Generic Modele Organisme Database project

GNU GNUs Not UNIX

GO Gene Ontology

GPL General Public License

GRAIL GALEN Representation and Integration Language

GUS Genomics Unified Schema

HGNC Human Gene Organisation

HGP Human Genome Project

HGP Human Genome Project

HTML HyperText Markup Language

HTTP Hypertext Transfer Protocol

IBM International Business Machines

ICARUS Interpreter of Commands And Recursive Syntax

IMG Integrated Microbial Genomes

INSDC Internatinal Nucleotide Sequence Database Collaboration

INSERM Institut National de la Santeacute et de la recherche meacutedicale

IRISA Institut de Recherche en Informatique et Systegravemes

Aleacuteatoires

JAXB Java Architecture for XML Binding

JAXP Java API for XML Processing

JDBC Java Database Connectivity

K2MDL K2 Mediator Definition Language

KEGG Kyoto Encyclopedia of Genes and Genomes

KOMF Khaos Ontology-based Mediation Framework

LAV Local As View

MCM Modegravele Conceptuel Multidimensionnel

MeSH Medical Subject Headings

MGD Mouse Genome Database

MGI Mouse Genome Informatics

MIPS Munich Information Center for Protein Sequences

MOLAP Multidimensionnal On Line Analytical Processing

NAR Nucleic Acids Research

NBRF National Biomedical Research Foundation

NCBI National Center for Biotechnology Information

15

NIH National Institutes of Health

NXD Native XML Database

OBO Open Biomedical Ontologies

ODL Object Definition Language

ODMG Object Data Management Group

OIL Ontology Inference Layer

OLAP On Line Analytical Processing

OLTP On Line Transactionnel Processing

OMG Object Management Group

OMIM Online Mendelian Inheritance in Man

OOLAP Object On-Line Analytical Processing

OQL Object Query Language

OWL Web Ontology Language

PDP Protein Data Bank

Pfam Protein Famili

PHP Hypertext Preprocessor

PIR Protein Identification Ressource

PPI Protein-Protein Interaction

PQL Program Query Language

PRODORIC PROcariotIC Database Of Gene-Regulation

QUIS Questionnaire for User Interface Satisfaction

RDF Resource Description Framework

RDFS Resource Description Framework Schema

ROLAP Relational On-Line Analytical Processing

SB-KOM System Biology Khaos Ontology-based Mediator

SEPT Source Entity Path Translator

SGBD Systegraveme de gestion de base de donneacutees

SGD Saccharomyces Genome Database

SKB Source Knowledge Base

SOAP Simple Object Access Protocol

SOFG Standards and Ontologies for Functional Genomics

SQL Structured Query Language

SRS Sequence Retrival System

SUS System Usability Scale

Tambis Transparent Access to Multiple Bioinformatic

InformationSources

TaO Tambis Ontology

16

UCL Universiteacute catholique de Louvain

UML Unified Modelling Language

UMLS Unified Medical Language System

UniProt Universal Protein Resource

URL Uniform Resource Locator

USA United States of America

W3C World Wide Web Consortium

WSDL Web Services Description Language

XML Extensible Markup Language

XSLT Extensible Stylesheet Language Transformations

ZFIN Zebrafish Information Network

17

NOTE AU LECTEUR

Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire

18

INTRODUCTION GENERALE

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute

19

Introduction geacute neacute raleacute

Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au

domaineacute biologiqueacute

Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere

exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des

sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au

plus grand nombre ouvrant ainsi de belles perspectives en recherche

La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant

les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation

diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse

du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees

diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de

reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees

heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte

Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte

La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs

disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la

complexiteacute du monde vivant (Blagosklonny and Pardee 2002)

Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de

diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques

implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de

donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature

1 PROBLEMATIQUE ET MOTIVATION

Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les

laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute

20

des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de

donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel

Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats

La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas

envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la

documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de

consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter

les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers

plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML

(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les

langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery

(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont

parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur

Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui

avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun

(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes

incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige

lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees

enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par

le biais de formulaires Web ou par une connexion directe au SGBD

De nos jours la masse formidable de donneacutees produites par les centres de recherche

atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de

systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb

2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette

accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune

science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee

2005)

Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des

donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute

particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces

sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare

de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige

leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du

systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise

optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La

1 httpwwwncbinlmnihgovnuccore

2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-

mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

21

majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des

serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent

montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge

Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne

concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct

lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la

preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres

deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-

Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de

logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans

compensation financiegravere5

Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave

rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee

possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux

problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin

dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes

eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario

typique reacutesolu manuellement

Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les

voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee

laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe

le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo

Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape

consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees

Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu

dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par

exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees

KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations

fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue

qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous

auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible

nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave

geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens

hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml

4 httpwwwmysqlcom

5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes

6 httpwwwbrenda-enzymesinfo

7 httpwwwgenomejpkegg

22

paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que

GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes

dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que

tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention

humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne

pas dire inexistante

Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages

de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des

solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface

unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le

cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles

(architecture de meacutediation)

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les

donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des

hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J

and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque

base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace

physique occupeacute serait trop important tant par les donneacutees que la conservation de leur

traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de

fonctionnement du systegraveme

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

23

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans

certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de

transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees

2 CADRE ET BUTS DU TRAVAIL

Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il

srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions

moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux

drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur

apparition croissante dans la litteacuterature scientifique

Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette

masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles

connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet

comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le

Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis

quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer

lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte

drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double

Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces

donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une

proteacuteine donneacutee

Fournir une plateforme complegravete permettant drsquoorienter la recherche par

extraction de nouvelles connaissances

La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en

combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la

mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine

biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre

24

groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de

Malaga

La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees

biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets

drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-

organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees

PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les

enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki

scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la

communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations

relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans

PseudomonasDW

3 LES PSEUDOMONAS

31 Caracteres geacuteneacutereaux

Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al

2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes

Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec

comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le

nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles

sont oxygegravene (+)

Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes

comme source de carbone et drsquoeacutenergie

Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux

antibiotiques et aux antiseptiques

A) Morphologie et structure

Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La

mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour

les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en

deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture

25

B) Croissance et nutrition

De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la

tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes

La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont

capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de

carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les

auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats

carboneacutes utilisables comme source drsquoeacutenergie pour la croissance

C) Caractegraveres physiologiques

Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de

conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de

culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle

tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip

D) Habita

Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol

humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et

se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels

surtout srsquoils sont humides

E) Morphologie et caractegraveres culturaux

Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune

pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de

cette bacteacuterie

Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC

ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la

production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et

non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski

convient pour la culture

F) Aspects de colonies

Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut

ecirctre observeacutee

Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un

contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect

meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave

lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes

Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord

circulaire reacutegulier

26

Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces

colonies se rencontrent presque speacutecifiquement dans des infections chroniques

urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un

polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo

G) Production de pigments

Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification

Ils sont fluorescents ou non fluorescents

Pyoverdine

Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en

eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est

inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer

Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes

fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas

aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de

nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un

moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer

et de le transporte

Pyocyanine

Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la

seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves

drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en

milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la

chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na

Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches

sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des

malades traiteacutes aux antibiotiques

Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent

de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le

diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P

lemonieri P stutzeri et P mendocina

32 Pouvoir pathogegravene

Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme

pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et

27

cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle

peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle

comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par

lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave

certains antibiotiques courants

Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble

laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique

de mauvaises conditions de plantation une autre maladie des blessures un systegraveme

racinaire contraint ou asphyxieacute

Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme

agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de

Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux

eacutetudieacutee

33 Lutte biologique

De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de

biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la

biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par

des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol

ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches

mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour

deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les

performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres

bacteacuteries

Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute

microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les

genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement

sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui

colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent

particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique

Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de

population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient

sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres

rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des

exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave

isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-

A-Woeng et al 2001)

28

Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues

depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans

certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents

phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs

meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de

sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition

du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela

peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la

maladie

4 STRUCTURE DE DOCUMENT

Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les

diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une

description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources

Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions

majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et

montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de

la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques

des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)

qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de

donneacutees originales jusqursquoagrave PseudomonasDW

Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les

espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les

phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet

aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous

deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans

PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur

drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW

Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs

29

Preacutemieacute reacute Partieacute

30

CHAPITRE 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

31

Chapitre 1

Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart

Sommaire

1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31

2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32

21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33

22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35

3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37

32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38

33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39

4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40

42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41

43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42

44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43

1 INTRODUCTION

Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif

est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de

solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees

Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80

sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier

1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute

une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise

en place de systegravemes de stockage des donneacutees

32

En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de

seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute

ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos

(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees

relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration

entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest

eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour

proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui

accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques

Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere

sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource

(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve

degraves 1986

2 EacuteTAT DES SOURCES

Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web

eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases

Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus

importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and

Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de

1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu

le jour

On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les

dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de

ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre

source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le

Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)

quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne

leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont

vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces

agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute

stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute

8 httpwwwemboorg

9 httpwwwnihgov

10 httpwwwncbinlmnihgov

11 httpwwwddbjnigacjp

12 httpwwwncbinlmnihgovgeo

13 httpwwwebiacukarrayexpress

33

creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le

deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement

analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)

drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les

reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de

donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements

multiples

La sous-section suivante dresse un rapide panorama drsquoun certain nombre de

sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web

21 Varieacuteteacute des sources biologiques

Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La

classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave

lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees

qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)

classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes

(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de

donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des

travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources

suivantes

Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du

domaine meacutedical Medline16 PubMed17

Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en

existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les

seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank

(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui

contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits

les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de

donneacutees sont ArrayExpress (Europe) et GEO (USA)

Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees

disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement

chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par

14

httpblastncbinlmnihgovBlastcgi 15

httppfamsangeracuk 16

httpwwwmedlinecom 17

httpwwwncbinlmnihgovpubmed

34

un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou

GEOArrayExpress) dans un certain format Toute publication scientifique

soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de

puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification

GenBankEMBLDDBJ (respectivement GEOArrayExpress)

Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne

sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des

seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la

soumission

Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces

sources contiennent des informations nettoyeacutees (au moins automatiquement

comme la suppression de doublons) et parfois mecircme valideacutees manuellement par

des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires

est de partir de donneacutees issues des sources primaires pour proposer des

informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations

compleacutementaires

Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont

deux exemples de sources secondaires qui proposent de regrouper les fiches

GenBank La premiegravere propose une version non redondante de GenBank elle est

obtenue en utilisant des techniques de regroupement semi-automatiques alors que

la seconde construit de faccedilon automatique des clusters de seacutequences

Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement

du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun

ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un

ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans

lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les

reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de

publications et associeacutes agrave un pheacutenotype (une maladie) donneacute

Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources

au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage

(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes

automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils

bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources

18

httpwwwncbinlmnihgovRefSeq 19

httpwwwncbinlmnihgovunigene 20

httpwwwncbinlmnihgov 21

httpwwwomimorg 22

httpprodomprabifrprodomcurrenthtmlhomephp

35

sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des

reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees

Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees

sur une famille de fonctions biologiques Par exemple la source BRENDA

est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique

sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources

FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database

SGD24 (deacutedieacutee agrave la levure)

Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de

fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes

dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve

dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de

synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes

humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt

(Consortium 2010) GenBank)

22 Autonomie et capaciteacutes drsquointerrogation

La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement

autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait

libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent

souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en

faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles

reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source

pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude

du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit

prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution

afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci

lors de lrsquoexeacutecution des requecirctes

Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web

est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet

eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de

cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les

accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client

23

httpflybaseorg 24

httpwwwyeastgenomeorg 25

httpwwwgenecardsorg

36

FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par

exemple) ou plus reacutecemment encore via des appels de services Web Concernant les

interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui

suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces

qursquoil devra utiliser

Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent

tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas

lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont

disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent

soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il

nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la

puissance de calcul drsquoune source par une requecircte trop complexe

soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive

drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source

Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme

drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et

via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs

sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus

expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL

Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais

aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)

ou Fasta26 (Lipman and Pearson 1985)

Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs

repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation

ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les

proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre

automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de

faciliteacute en fonction de lrsquoapproche suivie

26

httpwwwebiacukToolssssfasta

37

3 DIFFICULTES RENCONTREES LORS DE

LrsquoINTERROGATION DES SOURCES

Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web

nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de

donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout

une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements

effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au

cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble

de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi

que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux

des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements

En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele

de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a

deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati

2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses

approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La

taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation

mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des

probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al

2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques

qui rendent leur interrogation complexe et fastidieuse

31 Diversiteacute syntaxique

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les

formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees

soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson

1985) soit du XML du HTML ou des SGBD relationnels ou objets

Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase

drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le

deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du

langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin

2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et

al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave

reacutesoudre

27

httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

38

32 Diversiteacute seacutemantique

Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui

sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus

Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une

entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine

qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene

codant pour chaque proteacuteine est alors vu comme un simple attribut Au

contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et

crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le

domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine

(dans PDB29)

Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee

nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par

exemple UniProt propose des informations sur des proteacuteines issues de

diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles

ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire

chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune

des proteacuteines de la levure

Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une

mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par

exemple selon les sources une proteacuteine est une isoforme particuliegravere

(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes

(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui

peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou

incluant les introns

La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais

qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des

modegraveles des formats et des scheacutemas diffeacuterents

Diversiteacute des informations au niveau des instances

Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son

expertise agrave travers une fiche Il peut arriver que selon les sources une

mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes

Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance

associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est

peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe

drsquoannotateurs Certains annotateurs emploieront le terme de putative 28

httpwwwebiacukinterpro 29

httpwwwrcsborgpdbhomehomedo

39

pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront

le terme hypothetical Drsquoautres encore ne preacuteciseront rien

Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent

plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme

proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les

sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait

plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes

diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas

en preacutesence drsquohomonymie

Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi

ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de

vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie

les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable

puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de

la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees

33 Diversiteacute des langages de requecircte

Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le

langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)

est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases

de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la

source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin

et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes

OQL sur leur scheacutema

34 Diversiteacute des services

Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees

(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave

une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers

ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre

lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par

exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des

heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de

30

httpwwwensemblorgindexhtml

40

donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences

nucleacuteotidiques comme BlastN)

4 ELEMENTS DE STANDARDISATION

Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute

proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms

des concepts sous-jacents aux donneacutees des sources et des noms des relations entre

ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre

experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le

second type de solution est plus geacuteneacuterique il comprend la construction de cadres de

repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que

lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de

concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de

solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees

contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees

41 Format standards et nomenclatures

Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de

terminologies standards pour deacutecrire les donneacutees

Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir

des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies

pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un

workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu

annuellement et regroupe les principaux acteurs sur cette probleacutematique

Le souci de standardisation de lrsquoattribution de noms est pris en compte par le

consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature

Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences

31

httpwwwgenenamesorg

41

42 Ontologies

Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de

faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la

construction de nombreuses ontologies

Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la

philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions

informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune

conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus

souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie

cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a

donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces

concepts

Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine

biologique

Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui

vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques

speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un

organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement

consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants

cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la

communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres

ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie

MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)

Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open

Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en

ligne dont voici un extrait

Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces

particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du

Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish

Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on

distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour

32

httpwwwgeneontologyorg 33

httpwwwobofoundryorg 34

httpwwwinformaticsjaxorg 35

httpzfinorg 36

httpwwwnlmnihgovresearchumls

42

les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject

Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine

Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al

2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39

(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un

dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave

lrsquoEBI41

Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et

al 1997) propose un format de donneacutees une nomenclature et un cadre XML

(RNA-ML) (Waugh et al 2002)

Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)

nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN

et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies

se preacutesentent sous la forme de graphes non cycliques

43 Meacutetadonneacutees

Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil

srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave

une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee

permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation

et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples

de meacutetadonneacutees

lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification

des commentaires exprimant un point de vue sur la ressource

le scheacutema des donneacutees les index associeacutes

des informations de qualiteacute relatives au scheacutema de la ressource

des informations statistiques sur les donneacutees

la speacutecification la signature drsquoun programme

37

httpwwwnlmnihgovmesh 38

httpecocycorg 39

httpmetacycorg 40

httpwwwebiacukchebi 41

httpwwwebiacuk 42

httphelix-webstanfordeduribowebhtml

43

Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute

proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la

description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere

geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la

description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements

(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en

cateacutegories

Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description

(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant

le contenu de la ressource titre sujet ou codes de classement description

source langue relation avec une autre ressource couverture spatiale et temporelle

la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation

la mateacuterialisation de la ressource cycle de vie type format identificateur

44 Langages et formalismes

Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont

deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont

XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du

W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de

donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre

explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou

des applications

Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun

document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en

particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la

grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux

formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document

Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee

en XML

Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les

eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt

43

httpdublincoreorg 44

httpwwww3org

44

De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois

des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique

drsquoeacuteleacutements agrave une structure en graphe

Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un

document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire

deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide

XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il

assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML

crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension

seacutemantique

RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C

pour la description des sources sur le Web Les descriptions se font en exprimant des

proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave

deacutefinir les termes et les relations qui interviennent dans ces descriptions

RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des

meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces

meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes

de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le

Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme

drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en

acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre

une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut

ecirctre reacutealiseacutee et faciliteacutee

Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces

concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des

ontologies

OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute

par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les

applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave

preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML

RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle

OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la

disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus

riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees

45

httpwwww3orgTRrdf-concepts 46

httpwwww3orgTRrdf-schema 47

httpwwww3orgTR2009WD-owl2-primer-20090611

45

OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL

OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une

hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou

taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des

constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux

tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes

de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de

restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes

mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique

de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider

au raisonnement sur une base de connaissances OWL Full permet un maximum

drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe

proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du

vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL

pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de

connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description

46

CHAPITRE 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

47

Chapitre 2

Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47

2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50

23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52

31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53

32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70

4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86

1 INTRODUCTION

Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les

questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions

au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes

drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave

plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces

systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and

Kambhampati 2004)

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute

proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur

48

Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des

autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire

communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque

permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire

n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les

systegravemes (Sheth and Larson 1990)

Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune

base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les

applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement

directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)

Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration

drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes

sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont

accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des

sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de

requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources

disponibles

Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves

reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees

biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures

comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees

mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans

le mecircme temps

Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre

les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de

lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les

donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches

sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la

lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes

Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave

ecirctre exhaustifs

49

2 POINTS DE VARIATION ENTRE LES APPROCHES

DrsquoINTEGRATION

On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le

degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la

mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et

al 2004)

Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit

lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en

un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme

est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a

eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un

systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types

drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La

mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les

vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes

envoyeacutees au systegraveme

21 Degreacute drsquointeacutegration

Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement

appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere

approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema

inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche

agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources

de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une

transparence drsquointerface

211 Approche agrave couplage serreacute

Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de

lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul

emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema

peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit

conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des

requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme

drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas

50

des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des

deacutefinitions de regravegles (voir la sous-section 3213)

Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre

tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema

inteacutegrateur

212 Approche agrave couplage lacircche

Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du

systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter

lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les

utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre

accessibles pour des requecirctes

Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour

les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de

sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas

sont toujours visibles

22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration

Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees

provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees

Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle

lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web

seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune

telle infrastructure

221 Modegravele de donneacutees du systegraveme drsquointeacutegration

Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le

modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un

scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les

donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas

drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour

acceacuteder aux sources de donneacutees

51

222 Types drsquointeacutegrations seacutemantique

Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas

drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres

systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants

Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun

point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique

comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les

communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration

verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati

2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la

communauteacute informatique)

Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une

correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme

drsquointeacutegration

Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la

preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux

drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche

drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier

des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique

ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire

le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees

seacutemantique

223 Approches ascendante et descendante

Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre

seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche

lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball

2002)

Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des

besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele

de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans

lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces

meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins

des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les

sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir

desquelles les donneacutees deacutecisionnelles sont extraites

52

Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les

donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle

construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-

automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour

deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode

considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la

source (List et al 2002)

23 Mateacuterialisation des reacutesultats

Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle

deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de

lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre

deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche

virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global

extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes

adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees

Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette

approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce

stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les

donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un

entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de

donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes

sources de donneacutees doit passer par des proceacutedures de mises agrave jour

24 Accegraves aux donneacutees

Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes

pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la

navigation speacutecialement dans les systegravemes baseacutees sur le Web

3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE

Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute

dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une

53

approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees

Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres

suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes

sources et combineacutees dans un scheacutema global

31 Approche non mateacuterialiseacutee

Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels

sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques

de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme

ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour

drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web

proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50

(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble

eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et

permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute

de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases

comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs

reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble

drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome

humain

Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types

drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees

biologiques le systegraveme meacutediateur et le systegraveme navigationnel

311 Le systegraveme meacutediateur

Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un

systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent

stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture

meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous

indiquerons dans cette section comment certaines approches meacutediateur sont directement

issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est

celle qui est la plus reacutepondue en informatique

48

httpwwwncbinlmnihgovsitesgquery 49

httpexpasyorg 50

httpsrsebiacuk

54

A) Deacutefinition et Architecture

Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose

une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes

pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et

homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes

Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est

central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un

vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit

une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche

lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de

faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de

lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont

calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver

une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique

logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte

poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions

des vues

Figure 1 Architecture dun systegraveme meacutediateur

55

Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme

drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans

leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui

lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon

distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via

des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en

terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source

B) Approches GAV LAV et GLAV

Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par

la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des

sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales

drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave

inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes

(GLAV) (Baader et al 2003)

Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour

lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave

inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont

deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette

approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance

Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du

scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de

donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit

que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee

par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois

deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources

de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se

ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement

effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de

nouvelles sources de donneacutees

La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est

geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources

ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels

que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le

scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par

51

Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes

56

exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute

ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global

Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications

consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T

a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)

Figure 2 Lapproche GAV (Global As View)

Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les

scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et

inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche

LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de

donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre

ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du

scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute

et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une

requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en

termes de vues est en effet bien plus complexe que dans une approche GAV Nous

renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle

Figure 3 Lapproche LAV (Loacl As View)

57

Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche

GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee

en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche

GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une

nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans

lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue

sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut

deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif

que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du

pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la

conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison

entre les trois approches

Figure 4 Approche GLAV

Table1 Comparaison des approches GAV LAV et GLAV

Approche Reacuteeacutecriture de requecircte mise-agrave-jour source

GAV facile difficile LAV difficile facile

GLAV difficile facile

C) Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix

des sources ce qui est autant plus important qursquoil a un grand nombre de sources

disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple

surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du

scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque

58

les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui

eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable

(2) Problegraveme rencontreacutes

Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les

donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune

source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes

Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les

reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au

niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement

supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se

fait directement au niveau des donneacutees centraliseacutees

Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur

sont

Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des

langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave

inteacutegrer et les requecirctes des utilisateurs

En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de

reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave

exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale

Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans

de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre

potentiellement redondantes Pour faire correspondre les instances entre elles il

faut suivre les techniques de lrsquoalignement (mappings en anglais)

D) Panorama des meacutediateurs existants en Bioinformatique

(1) K2Kleisli

Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute

deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave

avoir vu le jour en bioinformatique

Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus

expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection

Programming Language) (Hart et al 1994) En effet le langage CPL permet de

deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources

concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources

59

qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de

KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et

EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences

nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et

al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome

Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de

seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par

SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema

orienteacute objet

Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un

langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect

inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non

seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes

objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du

langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur

de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les

sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL

(2) TAMBIS

Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un

systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester

(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO

(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave

travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au

niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le

systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee

pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les

rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une

requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave

la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de

K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux

sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au

format HTML

TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec

OWL qui sont des langages plus expressifs

52

httpwwwncbinlmnihgovdbEST 53

httpgdbwwwgdborg

60

Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa

besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier

avec un langage de requecircte particulier

(3) DiscoveryLink

DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de

DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une

architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire

drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)

utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute

syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont

soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute

lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les

adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator

(Arenson 2003) mais fonctionne toujours selon le mecircme principe

(4) BACIIS

Le projet BACIIS (Biological And Chemical Information Integration System) est un

systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS

BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique

de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le

langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois

dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes

organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees

(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que

rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)

La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de

donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de

donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet

drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme

drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux

inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la

correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme

permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration

54

httpwwwalmadenibmcomcsgarlic

61

312 Le systegraveme navigationnel

Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche

drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris

Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet

de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave

construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques

sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes

sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont

transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle

permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les

sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte

peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations

A) Deacutefinition

Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes

mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec

des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires

telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins

et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)

Notons que compareacute au nombre important de sources de donneacutees actuellement

disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin

dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research

(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les

sources les plus importantes partagent des identifiants mais nombreuses sont celles plus

petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que

partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences

souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les

interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle

atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur

augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive

(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee

par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet

Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger

rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne

neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est

fait encore aujourdrsquohui manuellement

B) Exploitation des reacutefeacuterences croiseacutees

Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un

premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple

62

Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des

informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)

Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune

mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave

des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes

sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas

neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-

reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour

La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur

lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous

consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le

montre lrsquoexemple de la Figure 5

Figure 5 Exemple de partage de reacutefeacuterences entre les sources

Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans

lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero

drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en

gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)

Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les

mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la

reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct

55

httpwwwncbinlmnihgovomim 56

httpamigogeneontologyorgcgi-binamigogocgi

63

La Figure 6 illustre le graphe de liens existants entre les quatre sources pour

reacutepondre agrave la requecircte

Figure 6 Graphe de liens entre les sources

En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent

Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3

Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle

possegravede afin drsquointerroger Source1 et Source2

La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune

boucle apparaicirct dans le parcours des sources

Table 2 Les deux deacuteroulements possibles

Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date

Sceacutenario 1 Sceacutenario 2

Requecircte avec une date sur S1

Requecircte sur S2

Agrave partir de id2 tireacute de S1

Requecircte sur S3

Requecircte avec une date sur S3

Requecircte sur S1 et S2

A partir de id1 et id2 tireacutes de S3

64

Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs

chemins possible pour obtenir les donneacutees souhaiteacutees

Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur

simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure

apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de

la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire

La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle

nrsquoapporte aucune information suppleacutementaire

Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer

les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-

section suivante

C) Panorama des systegravemes navigationnels existants en Bioinformatique

Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de

plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour

le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins

traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont

eacutevalueacutes ces diffeacuterents chemins

(1) Le systegraveme SRS

SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par

lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and

Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par

LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques

de donneacutees (Zdobnov et al 2002)

SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme

drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de

description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And

Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est

drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les

donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index

sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche

drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un

entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees

Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en

mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et

57

httpwwwbiochipnetcomnode1561

65

donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et

beaucoup de banques speacutecialiseacutees

ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences

permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de

relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences

La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web

SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot

cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent

ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la

recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-

reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations

compleacutementaires contenues dans drsquoautres sources

Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques

pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des

sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une

mecircme requecircte

(2) Le systegraveme BioMediator

Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave

lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de

transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses

reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger

Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et

lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur

Le systegraveme BioMediator suit une conception modulaire composeacute de six composant

(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees

biologiques structureacutes et semi-structureacutees

Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de

66

Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds

repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de

meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre

une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes

dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe

PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin

PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte

et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes

dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)

(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI

Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema

meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de

scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation

seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees

(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte

XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)

(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des

regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les

requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs

chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins

Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork

et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui

correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une

confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite

Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur

plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des

chemins possibles plutocirct qursquoune liste reacuteduite

(3) Le systegraveme BioNavigation

BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle

Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)

Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation

drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne

pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont

lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau

physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique

58

httpprotegestanfordedu 59

httpwwwxmlcompuba20030611qexohtml

67

ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces

entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)

Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes

entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la

construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les

citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute

lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo

BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une

requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur

des moyens pour eacutevaluer et optimiser les choix de chemins

Figure 8 Exemple de graphe dentiteacutes (Niveau logique)

Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction

du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps

drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and

Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour

reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs

paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans

BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et

sont classeacutes selon trois paramegravetres

68

La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un

chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)

ougrave e1 est une entreacutee de S1 et e2 de S2

La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale

Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution

locale et les deacutelais drsquoaccession aux sources

Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le

satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la

probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le

nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du

chemin le plus efficace en temps

(4) Le systegraveme BioGuide

Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche

navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des

utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet

BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils

bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus

drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine

biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils

et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces

graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y

seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type

de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et

des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous

la forme de chemins entre les sources Ces chemins sont construits en respectant les

preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix

Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la

preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins

geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute

drsquoutilisation

Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat

drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les

diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de

strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes

au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la

requecircte et iii) visitent une source donneacutee une seule fois

69

Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de

lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte

et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)

(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans

le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La

requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se

compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur

le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave

partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des

chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees

Figure 9 Architecture de BioGuide

Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler

ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de

strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou

les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide

ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand

nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees

divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)

70

32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)

Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees

reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema

global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis

exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse

est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les

donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique

transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle

Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations

individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et

surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave

lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il

est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce

qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees

global

321 Deacutefinition et Architecture

A) Deacutefinition

Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit

lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non

volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest

pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se

caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)

Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes

Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet

et neacutecessaires aux besoins drsquoanalyse dans une structure unique

Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees

en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour

reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le

reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des

sources

Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la

reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont

non volatile elles ne disparaissent pas apregraves les mises agrave jours

60

httpenwikipediaorgwikiBill_Inmon

71

Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont

permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct

consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent

Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les

valeurs particuliegraveres dans le temps

Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils

drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter

facilement les donneacutees

B) Architecture

Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en

deacutetaillant les diffeacuterentes couches qui le constituent

Figure 10 Architecture dun entrepocirct de donneacutees

Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et

heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data

Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes

depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line

Analytical Processing) (voir la sous-section 322)

Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)

syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend

les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la

hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees

fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-

72

Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui

repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations

concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur

structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation

Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees

322 Inteacutegration de donneacutees dans un systegraveme entrepocirct

Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes

vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)

lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux

structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees

inteacutegreacutees dans le systegraveme cible

Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et

une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant

logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape

drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans

un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de

donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme

logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees

neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par

source ou un middleware pour toutes les sources

73

Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12

Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees

Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave

effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct

de donneacutees Ce processus de transformation requiert la mise en correspondance

structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de

lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-

scheacutemas ou appariement de scheacutemas (schema matching)

Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent

du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est

interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de

scheacutema et de correspondance inter-scheacutemas

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute

S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et

G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents

types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un

eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison

drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs

(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles

(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel

74

Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes

qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les

critegraveres de classification suivants (Rahm and Bernstein 2001)

Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir

des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au

niveau du scheacutema

Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des

eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-

structures complexes de scheacutemas

Langage versus contrainte Les correspondances peuvent se baser sur des

approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute

de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)

Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la

relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre

scheacutema ceci menant agrave quatre cas 11 1n n1 nm

Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne

reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires

telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees

Il faut noter que certains algorithmes effectuent les correspondances en se basant

sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres

323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel

Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W

Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement

transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la

deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement

dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs

caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des

systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car

les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)

Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP

pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes

sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des

modifications freacutequentes et des volumes de donneacutees par transaction relativement faible

Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour

preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une

75

reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de

modification

Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont

qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est

reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes

sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser

une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de

grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus

complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas

correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux

de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est

entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil

contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de

chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de

lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une

alimentation reacutefleacutechie et planifieacutee dans le temps

324 Les modegraveles des entrepocircts de donneacutees

La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees

transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de

donneacutees repose sur un modegravele multidimensionnel de donneacutees

A) La modeacutelisation conceptuelle

La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association

(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)

en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de

nouvelles entiteacutes

De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave

comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation

E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute

(1) Concept de fait de dimension et de hieacuterarchie

Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse

des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que

lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur

fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction

tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees

76

en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62

Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors

qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble

drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs

Figure 13 Exemple de cube de donneacutees

Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les

attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une

dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes

relations drsquoordre entre ses attributs

Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois

dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps

Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la

proteacuteine

(2) Modegraveles en eacutetoile en flocon et en constellation

A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees

simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure

est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente

visuellement une eacutetoile on parle de modegravele en eacutetoile

61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres

correspondant aux formations faisant varier les mesures de lactiviteacute 62

Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63

Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail

77

Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce

scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions

autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute

eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions

Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la

modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la

modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de

dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et

al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions

Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au

sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la

normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball

2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des

dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend

plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema

augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte

Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en

trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en

quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo

Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui

utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs

faits et des dimensions communes (Benitez-Guerrero et al 2001)

B) La modeacutelisation logique

Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation

multidimensionnelle Il est possible dutiliser

un systegraveme de gestion de bases de donneacutees existant tels que les SGBD

relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)

un systegraveme de gestion de bases de donneacutees multidimensionnelles

(MOLAP)

Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de

bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line

Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere

suivante

Chaque fait correspond agrave une table appeleacute table de fait

Chaque dimension correspond agrave une table appeleacutee table de dimension

78

Figure 14 Modegravele en eacutetoile

Figure 15 modegravele en flocon

Figure 16 Modegravele en constellation

79

Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes

et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension

contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la

table de fait

Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de

lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel

se traduit ainsi

Chaque fait correspond agrave une classe appeleacutee classe de fait

Chaque dimension correspond agrave une classe appeleacutee classe de dimension

Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on

utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par

(Object Data Management Group) lrsquoODMG64

Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme

multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD

multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce

tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant

aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-

calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les

systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer

Les systegravemes MOLAP apparaissent comme une solution acceptable pour le

stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne

deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont

consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression

doivent ecirctre utiliseacutees

Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de

redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les

utiliseacutees sont

Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun

des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un

ensemble de faces diffeacuterents

Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune

dimension

Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune

repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble

64

wwwodmgorg

80

de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de

dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune

opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas

connu agrave lrsquoavance

C) La modeacutelisation de donneacutees XML multidimensionnelles

Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards

tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant

disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent

chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage

drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un

environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees

XML est de les convertir en donneacutees relationnelles Cependant mettre en place un

entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche

inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes

dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery

Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and

Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction

pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML

Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque

document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme

respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la

validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier

repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile

ou en flocons de neige

Figure 17 Les eacutetape de lrsquoapproche X-Warehousing

81

La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave

lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel

multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute

en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette

approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur

leurs contenus

Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document

XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun

ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et

hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au

modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML

325 Adeacutequation Problegravemes rencontreacutes

(1) Adeacutequation

Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis

les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest

reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les

donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et

non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en

œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de

lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique

(Davidson et al 2001 Hernandez and Kambhampati 2004)

La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut

stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees

provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la

gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo

La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des

donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par

thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en

consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs

sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un

thegraveme

La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au

sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes

sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement

82

La transformation de donneacutees lors de lrsquointeacutegration Le processus de

transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de

reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration

verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce

processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de

reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema

La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles

localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees

provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte

(2) Problegravemes rencontreacutes

Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction

de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des

sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction

des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette

tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection

drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment

de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct

Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages

des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees

des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)

Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport

aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et

comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes

increacutementaux

Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car

les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations

ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches

drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour

326 Panorama des entrepocircts de donneacutees existants en Bioinformatique

A) GUS

Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand

entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS

est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les

maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux

proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support

pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et

83

lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour

stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative

2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al

2007)

Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts

(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et

annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de

nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et

dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il

possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat

drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des

donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS

chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de

regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale

B) GEDAW

Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees

deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des

eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de

Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse

des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees

dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves

disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de

GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches

biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees

inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie

GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees

structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology

UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de

correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme

instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent

ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences

renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)

ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est

incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut

lui aussi eacutemettre des regravegles de nettoyage des donneacutees

65

httpplasmodborgplasmo 66

httpwwwcbilupenneduepcondb42 67

httpwwwncbinlmnihgovprojectsSNP

84

Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les

scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-

mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de

deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de

transformer les structures des sources vers une forme canonique (le scheacutema global) Dans

le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour

identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres

pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des

informations

C) BioWarehouse

BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de

construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de

bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de

BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot

Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le

chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de

lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de

BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source

correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le

chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la

seacutemantique et du scheacutema global

Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un

fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des

donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations

drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas

freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation

drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir

de diffeacuterents modules

Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema

relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou

commerciales comme ORACLE

68

httpbiocycorg 69

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

85

D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques

biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene

UniProt GO InterPro KEGG et OMIM

Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema

global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic

Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les

donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales

que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source

comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le

systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le

reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu

dans le scheacutema GAM

GenMapper propose une interface conviviale de conception de requecircte ougrave

lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il

choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur

GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de

deacutepart

GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes

drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche

drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees

qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations

sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types

drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la

creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP

Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits

correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations

et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees

en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-

down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations

GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les

analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper

70

httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71

httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

86

est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees

sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare

4 DISCUSSION

Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la

recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes

drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee

Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les

donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les

rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle

au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix

en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter

Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32

fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans

un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les

donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs

propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees

inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche

permettant de lutter efficacement contre les donneacutees inconsistantes provenant de

diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands

volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la

conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes

drsquoanalyses ulteacuterieures

Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des

approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches

conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct

deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside

dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour

Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de

lrsquoaccessibiliteacute de ces sources externes

La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration

horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires

et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes

sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de

compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes

ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne

87

peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et

qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des

principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de

maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune

source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un

certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent

de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes

De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le

modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les

avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees

biologiques et avons dresseacute un panorama des solutions existantes en informatique en

montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques

88

Deacuteuxieacute meacute Partieacute

89

90

CHAPITRE 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp

91

Chapitre 3

Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes

donneacute eacutes deacute Pseacuteudomonas sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91

2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97

3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101

31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101

32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102

33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107

34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113

36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117

5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123

1 INTRODUCTION

Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties

sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si

depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour

ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la

proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere

Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution

drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte

92

lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre

drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et

techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en

informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un

entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-

structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques

meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit

drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les

proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus

biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes

conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la

litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les

avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees

(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave

certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent

motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de

recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des

donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce

domaine font souvent appel agrave des traitements trop complexes pour tourner sur des

donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester

sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique

est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres

et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui

est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le

meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un

systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour

exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une

bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees

peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur

La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la

deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des

donneacutees

La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout

nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de

PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs

formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs

du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre

exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees

publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une

eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees

93

geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees

cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence

pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les

sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les

donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave

identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees

La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est

drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de

donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes

reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global

de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees

provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour

Respecter la fiabiliteacute de lrsquoinformation

Respecter la coheacuterence des informations une mecircme donneacutees pouvant

provenir de deux sources diffeacuterentes il faut alors choisir la plus

judicieuse

Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de

maniegravere unique une donneacutee

Unifier la repreacutesentation des donneacutees

Veacuterifier la non-redondance des informations

Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer

les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral

lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)

lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des

sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et

seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin

drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et

autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des

donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement

logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de

transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de

donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration

ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-

based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute

effectueacutee automatiquement en se basant sur quelques API (Application Programming

Interface) de java

94

2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW

Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est

un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de

lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees

inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies

Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema

inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et

meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui

nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)

Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un

environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de

construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation

souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave

lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans

les approches top-down les scheacutemas des sources importent peu pour la conception du

scheacutema global Ils seront seulement pris en compte dans un second temps quand les

correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour

permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema

global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne

connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir

PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-

up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema

telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus

drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les

donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en

assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La

combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples

permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus

cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements

cellulaire

21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW

Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees

comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases

de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et

de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les

95

diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees

meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du

niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations

complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque

source de donneacutees sa provenance son contenu et sa structure

211 Bases de donneacutees geacutenomique et proteacuteique

PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du

gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une

collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de

donneacutees

GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee

comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont

publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al

2011) Cette base de donneacutees est produite au sein de NCBI (National Center for

Biotechnology Information) comme une partie de la collaboration internationale

des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal

Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs

reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de

380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre

des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines

avec la taxonomie le geacutenome le mappage la structure et les domaines

drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed

GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format

XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour

speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des

gegravenes et des seacutequences soumises

Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de

donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus

(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines

leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les

donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est

met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut

suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant

189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les

donneacutees en format HTML XML et Fasta

72

httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml

96

PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation

Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des

informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur

les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC

contient principalement des informations deacutetailleacutees sur les structures des opeacuterons

et des promoteurs y compris une eacutenorme collection des sites de liaisons et de

facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison

reacutegulateurs est disponible et une matrice du poids de position (position weight

matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la

litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave

plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du

serveur du PRODORIC par la technologie SOAP via le protocole HTTP en

utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit

eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux

utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs

propres programmes

212 Bases de donneacutees meacutetaboliques

KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme

humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est

consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique

(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux

moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les

informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de

donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions

(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus

respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers

chimique

Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies

(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus

cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du

SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui

facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique

Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure

drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes

(Kanehisa et al)

74

httpwwwprodoricde

97

213 Bases de donneacutees Enzymatique

PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees

enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la

collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles

agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme

une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et

deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique

de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites

directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en

biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des

programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est

veacuterifieacutee manuellement par au moins un biologiste et un chimiste

Le contenu de BRENDA couvre des informations sur la fonction la structure

loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des

donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et

lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que

laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des

caracteacuteristiques de la structure

22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de

PseudmonasDW

Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont

plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la

litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction

drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative

Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-

hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave

aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on

parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)

que drsquoentrepocirct de donneacutees (ou data warehouse)

Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des

donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema

inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine

le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct

98

Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa

complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser

notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour

une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les

instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees

drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM

(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est

baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware

nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de

cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans

le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques

qui sont accessible via le web (Briache et al 2012)

Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de

donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment

impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de

lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de

lrsquoarchitecture du systegraveme

La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves

aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)

Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al

2003)

Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un

flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest

acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit

drsquoune technologie informatique intergicielle (comprendre middleware) permettant

drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une

autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees

dans les applications des transformateurs qui manipulent les donneacutees et des mises en

correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est

lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW

Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont

uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos

Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre

des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees

dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW

est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque

source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers

99

occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un

adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte

approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements

suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de

donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les

fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave

partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP

Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de

performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de

lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees

au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les

combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux

obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au

format HTML

Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par

lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation

qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees

Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des

services web Finalement le systegraveme transforme les donneacutees extraites en un format

commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser

une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le

scheacutema global par des regravegles de correspondances deacutefinies (mappings)

Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle

en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons

aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un

entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du

systegraveme est citeacute dans la section suivante

75

httpjenaapacheorg 76

httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77

httpexistsourceforgenet

100

Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW

101

3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE

LrsquoENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans

cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de

plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)

le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees

drsquoorigine

En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon

deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les

donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par

SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme

un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration

seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du

PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source

et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement

agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une

description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW

31 Scheacutemas de source

La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW

constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude

deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour

deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute

Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En

pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele

orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et

des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les

relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML

Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons

creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont

consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les

sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes

102

de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale

sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct

Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA

32 Services de donneacutees

Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees

et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration

(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees

accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute

comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons

deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons

deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du

Web

Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs

en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent

ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation

de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au

protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des

103

applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un

modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et

srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un

service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de

meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les

services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes

et reacuteutilisables raquo

Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la

fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture

adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service

Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le

protocole Web raquo

321 Architecture du service de donneacutees dans PseudmonasDW

Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)

Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de

diffeacuterentes sources de donneacutees

Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW

Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux

sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document

104

XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa

seacutemantique comme un service web La seacutemantique du service Web inclut des informations

sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans

le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de

donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de

service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application

Programming Interface)

LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois

meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document

XML La structure du ce document doit satisfait les contraintes du scheacutema de la source

Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux

meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema

XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur

la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)

Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux

diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant

geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au

service Web La partie importante de la classe Service est de tenir la correspondance entre

la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de

donneacutees Autrement dit la classe service est responsable de mettre des correspondances

entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees

322 Impleacutementation du service de donneacutees dans PseudmonasDW

Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache

Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter

le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous

les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le

fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du

service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute

webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service

78

httptomcatapacheorg 79

httpwsapacheorgaxisoverviewhtml

105

Figure 21 Premiegravere eacutetape de deacuteploiment du service Web

La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier

deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des

proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement

ltservicegt (Figure 22)

Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web

Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont

Lrsquoattribut name indique le nom du service web

Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute

pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider

106

Java RPC qui permet drsquoexposer une classe Java quelconque en tant que

service Web

Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements

ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes

Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la

classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le

chemin vers la classe java compileacutee associeacutee au service Web (nous referons

ici agrave la classe Service)

Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes

exposeacutees par le service Web La valeur speacuteciale indique que nous avons

exposeacutes toutes les meacutethodes du serveur Web

La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service

dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil

drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur

de deacuteploiement du service via la commande suivante

java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd

-httphostnameportnumberwebServiceFolderNameservicesAdminService

Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService

WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute

effectueacutee par la saisie de la direction lsquohttphostnameportnumber

webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis

drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)

Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement

107

33 Scheacutema Inteacutegrateur du PseudmonasDW

Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de

sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche

deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de

lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les

donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute

effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des

sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct

est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des

informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune

redondance au niveau du scheacutema inteacutegrateur

Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des

informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour

identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons

appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du

scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema

global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

laquo Le scheacutema global correspond agrave la description des relations entre toutes les

donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de

leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo

(King et al 2008)

En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la

deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel

modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre

exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW

Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la

reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

(Figure 24)

108

Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW

Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un

scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une

interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une

ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema

conceptuel

Une ontologie de domaine est une laquo description intentionnelle de ce qui nous

connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des

concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine

de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre

domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses

caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une

terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure

lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts

Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees

par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui

modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel

simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui

repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les

proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie

109

peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la

cateacutegorie des concepts relieacutes aux sources de donneacutees

Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les

entiteacutes biologiques (par exemple les classes gene genome protein

enzymehellip)

Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes

reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple

le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans

lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de

donneacutees originales Ce type de concept a un rocircle tregraves important pour garder

les traces de donneacutees dans PseudmonasDW

Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de

proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les

individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype

properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de

PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes

des objets

Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au

niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les

eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des

objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees

Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur

drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation

speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code

pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate

(Roychoudhury et al 1992)

Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase

sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo

algU reacutegule le gegravene algD

Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes

abreacuteviations que leurs gegravenes

Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif

Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132

110

Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)

A partir de cet exemple nous pouvons deacuteduire

Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo

Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux

concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo

Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts

lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo

pour le concept lsquoEnzymersquo

Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du

concept lsquoProteinrsquo

Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie

standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de

OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de

domaine qui preacutesente une simple hieacuterarchie des concepts

34 Correspondances seacutemantiques entre les scheacutemas

En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin

drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements

approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de

ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une

111

des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees

(Toumani et al 2007)

Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As

View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des

sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente

une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue

deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de

donneacutees

Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de

sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de

correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de

donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que

nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont

Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA

P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath

Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie

En geacuteneacuterale nous avons deacutefinie trois types de mappings

112

Mapping des Classes ce type de mappings deacutefinie des associations entre les

classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere

suivante

XPath-Element-Location Ontology-Class-Name correspondence-

index

Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement

du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo

repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie

lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine

la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave

100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de

mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema

du BRENDA

ResultEnzymeEnzyme100

ResultEnzymeFunctional_ParameterKMKM100

Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les

proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il

srsquoeacutecrie comme suit

XPath-Domain-Location XPath-value-Location Ontology-Domain-

Name Property-Name correspondence-index

Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du

scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment

lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son

rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent

respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la

proprieacuteteacute de type de donneacutees lsquohasValuersquo

ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional

_ParameterKMKM_ValueKMhasValue100

ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu

nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal

ue100

Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes

drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere

suivante

113

XPath-Domain-Location XPath-Range-Location Ontology-Domain-

Name Ontology-Range-Name Property-Name correspondence-index

Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo

deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la

proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo

et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau

de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet

Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee

au scheacutema de source

ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti

onal_ParameterhasFunctionalParameter100

35 SD-Core Genetic Semantic Middleware Components for the Semantic Web

Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des

infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de

programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application

distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour

mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter

tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains

drsquoentre eux

Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par

le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration

de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est

baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic

Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de

base pour construire des applications de Web seacutemantique il est disponible en tant que

serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour

consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)

Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le

meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire

seacutemantique (Semantic Directory)

Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et

al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure

27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO

est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les

relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV

114

Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core

Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum

des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique

Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents

types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core

Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware

pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)

getOntology( url) listOntologies() and listOntologies(concept)

Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies

enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les

impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les

correspondances (mappings) entre le scheacutema de cette ressource et les ontologies

enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux

utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(

serviceName url queryMethod schemaMethod))

Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface

drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies

Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux

diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos

services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a

permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre

disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et

115

solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de

deacutetail dans la section 36)

Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM

36 SB-KOM System Biology Khaos Ontology-based Mediator

Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un

systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute

SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes

2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une

infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les

informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a

eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des

sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est

composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et

lrsquoeacutevaluateurinteacutegrateur

Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et

coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des

116

reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et

assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes

provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats

conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en

terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type

de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient

les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de

domaine

Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des

plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans

geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees

pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees

Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il

y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de

domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des

scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees

seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme

correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath

sont actives dans la proprieacuteteacute

Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte

conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de

concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres

Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous

1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux

groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats

ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux

arguments (les proprieacuteteacutes)

2 Construire GS un ensemble de combinaisons entre les deux groupes en se

basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave

cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes

3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les

mapping enregistreacutees au niveau de SD-Core

4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les

arguments preacutedicats

a La variable instancieacutee constitue le nœud racine

b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour

la variable instancieacutee et les eacuteleacutements qui ne contiennent que la

variable instancieacutee (sans les autres variables) seront passeacutes au nœud

courant et eacutelimineacutes de GS

117

c Les eacuteleacutements qui contiennent une autre variable en plus de celle

instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres

nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees

seront repreacutesenteacutes par drsquoautres variables qui seront des variables

instancieacutees

d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour

chaque nouvelle variable instancieacutee

LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de

requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes

dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de

lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans

lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees

souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit

des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant

les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de

services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie

des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de

domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de

requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations

inutiles

4 PROCESSUS ETL DANS PSEUDOMONASDW

Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer

comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus

drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise

par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive

suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct

Ans(PEOGPW)-

Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym

e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)

ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn

(PPW)

Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee

lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un

organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de

cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies

118

meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des

donneacutees sur le gegravene qui code pour elle

Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en

terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de

donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P

Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient

les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de

cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de

donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism

IsEnzyme CodedBy et ParticipateIn) (Figure 29)

Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge

La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et

qui sont relieacutees aux

Organism par le biais de la relation ForOrganism

Pathway par la relation ParticipateIn

Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi

agrave la classe Organism par la relation ForOrganism

Gene par la relation CodedBy

Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une

fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au

planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la

119

requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique

lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan

drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un

ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les

preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et

appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par

la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par

le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes

possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3

A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire

des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables

instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux

variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave

exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave

lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut

pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend

Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe

agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la

proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils

deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees

lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations

ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus

lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend

au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)

Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees

120

Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte

Groupe Sous-requecircte Service de Donneacutees

G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA

Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors

que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque

nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes

par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-

requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave

lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter

Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant

Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour

notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la

proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le

nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de

classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques

dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-

requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de

donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee

avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher

les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce

que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le

service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)

parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG

Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments

(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes

lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo

A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees

extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des

instances des scheacutemas XML des sources sous-jacentes Le composant

Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles

121

de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine

enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de

domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles

sont produites de services de donneacutees diffeacuterents Afin de les associer

lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au

niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de

domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant

EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat

obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees

extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est

automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java

(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-

db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees

XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de

donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4

Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW

122

Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL

(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees

souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les

services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la

transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les

instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer

dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La

derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a

permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif

(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein

de PseudmonasDW

Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

123

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

5 DISCUSSION ET CONCLUSION

Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels

du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en

bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et

donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui

caracteacuterisent les donneacutees biologiques

Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et

analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon

doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus

quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont

pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques

caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique

De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus

complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de

processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute

La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie

par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel

environnement

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de

Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de

multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement

drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et

reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes

124

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes

Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour

extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs

forment une partie importante dans les services de donneacutees qui fournissent des moyens

pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de

donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une

interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les

donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM

Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous

somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui

offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De

cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance

(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema

inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de

domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts

et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de

lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement

aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees

dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques

bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration

seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs

avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement

stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre

part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le

meacutediateur

Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que

leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se

distingue des autres sur diffeacuterents points

125

Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une

diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de

connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique

et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des

donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de

GO

Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement

adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique

appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans

PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema

global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema

afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une

modification profonde du scheacutema

Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des

sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des

donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas

la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la

non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute

Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation

Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne

maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans

PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local

dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

126

CHAPITRE 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp

127

Chapitre 4

PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes

Pseacuteudomonas Sp

Sommaire

1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129

22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163

1 INTRODUCTION

Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces

bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de

certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee

par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et

chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute

de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de

Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique

128

Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de

donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme

Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI

Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82

National Center for Biotechnology Information (NCBI) Microbial Genomes83

(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de

donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques

sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne

pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que

Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site

Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune

grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent

sur le suivi des changements des annotations et de permettre leur comparaison entre les

espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part

Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees

fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de

donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et

fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais

manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les

voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas

la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees

qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas

aeruginosa PAO1

Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le

chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui

regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece

de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour

une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase

de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les

acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique

aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de

PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires

concernant les espegraveces de Pseudomonas

80

httpimgjgidoegov 81

httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82

httpwwwxbaseacuk 83

httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84

httpwwwmicrobesonlineorg 85

httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86

httpwwwpseudomonas-syringaeorg 87

httpwwwpseudomonascom

129

2 MODEacuteLISATION DE PSEUDOMONASDW

Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il

est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de

passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les

proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle

dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de

nombreux choix qui auront des reacutepercussions importantes dans la suite

La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux

drsquoabstraction diffeacuterents

Modegravele conceptuel repreacutesente le contenu de la base en termes

conceptuels indeacutependamment de toute consideacuteration informatique

Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un

scheacutema propre agrave un type de base de donneacutees

Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et

drsquoaccegraves aux donneacutees de la base

La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des

systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins

des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle

consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux

domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains

aspects des systegravemes physiques ou humains et de leur environnement

Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee

gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling

Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et

son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques

et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur

lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par

ce langage pour la conception de PseudomonasDW

21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW

Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de

PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une

88

Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage

130

fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle

joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)

et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun

utilisateur exteacuterieur le voit

Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur

(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le

biologiste)

Table4 La liste des acteurs

Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via

lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies

par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit

Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en

introduisant son URL

Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des

mots cleacutes via son interface web

Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en

utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme

a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)

Table5 les cas drsquoutilisation de lrsquoutilisateur

Acteur Cas drsquoutilisation

Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet

PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web

Administrateur Le superviseur du systegraveme

Cas drsquoutilisation

Etablissement drsquoune connexion avec le systegraveme

Interrogation du systegraveme

Analyse de donneacutees

131

b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)

Figure 33 Le diagramme de cas dutilisation de lutilisateur

PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees

stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du

PseudomonasDW sont comme suit

Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par

lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du

systegraveme

Construction du reacutesultat

Translation du reacutesultat en un format lisible par lrsquoutilisateur

a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)

Table 6 les cas drsquoutilisation de PseudomonasDW

Cas drsquoutilisation

Translation de la requecircte

Construction du reacutesultat

Translation du reacutesultat

132

b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)

Figure 34 Le diagramme de cas dutilisation de PseudomonasDW

Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer

nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser

lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent

le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit

Inteacutegration de donneacutees au sein de PseudomonasDW

Nettoyage de donneacutees en eacuteliminant les redondances

Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de

donneacutees en fonction des sources originales

Maintenance de lrsquoentrepocirct de donneacutees

Maintenance de lrsquointerface Web

Ajout des fonctionnaliteacutes en cas de besoin

a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)

Table 7 les cas drsquoutilisation de lrsquoadministrateur

Cas drsquoutilisation

Inteacutegration de donneacutees

Nettoyage de donneacutees

Mise agrave jour de donneacutees

Maintenance de PseudomonasDW

Maintenance de lrsquointerface Web

Ajout de fonctionnaliteacutes

133

b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)

Figure 35 Le diagramme de cas dutilisation de ladministrateur

22 Diagrammes de seacutequence du systegraveme PseudomonasDW

Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets

selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects

dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes

sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute

drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du

Siemens Pattern Group (Buschmann et al 1996)

Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des

messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW

(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les

diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son

reacutecepteur

134

Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur

Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de

PseudomonsDW

message eacutemetteur reacutecepteur

1 Demande de connexion Utilisateur Web app

2 Etablissement de connexion Web app Utilisateur

3 Envoi de requecircte via des formulaires HTML Utilisateur Web app

4 Reacuteception de requecircte Web app Web app

5 Geacuteneacuteration de requecircte XQuery Web app Web app

6 Envoi de la requecircte XQuery Web app PDW DB

7 Interrogation des indexes PDW DB PDW DB

8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB

9 Construction de reacutesultat XML PDW DB PDW DB

10 Transformation de reacutesultat de XML en XHTML PDW DB Web app

11 Affichage de reacutesultat en forma XHTML Web app Utilisateur

135

23 Diagramme de classes du systegraveme PseudomonasDW

Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la

modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les

composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des

eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations

Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les

diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de

la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir

les diffeacuterentes classes et relations composant notre diagramme de classe

Le diagramme de classe de PseudomonasDW est constitueacute de six classes

principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)

auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de

raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous

a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses

diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des

bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes

en trois sections la section supeacuterieure contient le nom de la classe la section centrale

deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les

diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation

qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui

sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de

composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base

3 IMPLEMENTATION DE PSEUDOMONASDW

Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese

est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de

Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les

applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources

multiples

Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre

diviseacutes en deux familles (Mahboubi et al 2009)

La premiegravere famille propose une modeacutelisation multidimensionnelle pour les

entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en

eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des

dimensions et offrent un support pour des outils danalyse

136

Les approches de la seconde famille abordent la probleacutematique de lentreposage de

documents XML Elles perccediloivent un entrepocirct XML comme une collection de

documents XML

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous

sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les

donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML

Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML

Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des

documents XML obtenus de la transformation des instances RDF au niveau de notre

entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons

donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases

de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees

XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)

31 Organisation des bases de donneacutees de PseudomonasDW

Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du

genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base

de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection

des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees

selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des

scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce

modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de

lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de

PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons

nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo

137

Figure 37 Le diagramme conceptuel de PseudomonasDW

138

Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW

Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees

Genomes complets

Pseudomonas aeruginosa PAO1 6264404 5682 5556

Pseudomonas aeruginosa M18 6327754 5764 5684

Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269

Pseudomonas aeruginosa LESB58 6601757 6061 5908

Pseudomonas aeruginosa PA7 6588339 6369 6246

Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886

Pseudomonas fluorescens PfO-1 6438405 5829 5714

Pseudomonas fluorescens Pf-5 7074893 6233 6137

Pseudomonas fluorescens SBW25 6722539 6106 5921

Pseudomonas fluorescens F113 6845832 5953 5862

Pseudomonas putida F1 5959964 5403 5245

Pseudomonas putida GB-1 6078430 5529 5408

Pseudomonas putida KT2440 6181863 5516 5350

Pseudomonas putida W619 5774330 5309 5182

Pseudomonas putida BIRD-1 5731541 5046 4960

Pseudomonas putida S16 5984790 5307 5171

Pseudomonas syringae pvphaseolicola 6112448 5437 5172

Pseudomonas syringae pvtomato 6397126 5688 5481

Pseudomonas syringae pvsyringae 6093698 5220 5089

Pseudomonas stutzeri A1501 4567418 4210 4128

Pseudomonas stutzeri DSM 4166 4689946 4372 4301

Pseudomonas stutzeri ATCC 17588 4547930 4287 4181

Pseudomonas entomophila L48 5888780 5275 5134

Pseudomonas mendocina ymp 5072807 4704 4594

Pseudomonas mendocina NK-01 5434353 5035 4954

Pseudomonas brassicacearum NFM421 6843248 6176 6081

Pseudomonas fulva 12-X 4920769 4540 4459

Genomes incomplets

Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207

Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905

Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221

Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096

Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402

Pseudomonas chlororaphis - - 218

Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts

(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie

meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements

figureacutes directement apregraves lrsquoeacuteleacutement racine

Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur

organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees

correspondante

Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au

gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee

Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees

sous lrsquoeacuteleacutement laquoProteinDataraquo

139

Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans

PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte

deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes

Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les

diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans

lrsquoentreacutee

Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1

32 Impleacutementation des bases de donneacutees de PseudomonasDW

En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees

sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML

deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la

version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome

qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute

Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des

servlets pour lrsquoaccegraves distant

89

httpjettycodehausorgjetty

140

La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de

charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents

XML dans 33 collections une collection pour chaque espegravece entreposeacute dans

PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre

application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery

Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de

fonctions de XQuery

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW

90

XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML

141

4 INTERFACE WEB DE PSEUDOMONASDW

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

41 Les Moteurs de rechercheacute dans PseudomonasDW

Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des

moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees

XML natives

Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les

pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur

quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute

qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de

recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de

recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas

parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu

laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ

speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-

down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la

proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave

minimiser le temps et la complexiteacute de la recherche

Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la

possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce

formulaire de recherche ou moteur de recherche propose des champs de recherche

multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de

Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein

Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons

aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs

espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la

possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees

Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant

de 1 agrave 33

142

Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas

Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute

Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche

143

Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute

144

Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue

nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave

quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de

donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML

et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues

HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a

eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et

convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de

PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans

quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis

Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML

Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta

Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3

42 Les entreacutees de Pseudomonas DW

Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq

sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la

section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont

listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune

section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de

PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee

dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails

des cinq sections

La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces

informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la

langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant

pour les proteacuteines et les ARN

La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en

question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom

scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les

diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la

seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de

transcriptions les sites de liaison et les sites de mutations ou de modification Cette section

offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du

gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A

partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage

145

Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524

146

La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle

contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui

permet un affichage et une lecture tregraves simple Les informations de cette section sont

repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la

proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et

lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes

caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les

reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que

la seacutequence peptidique de la proteacuteine

La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine

deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission

numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees

enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions

catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats

et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des

informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des

informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des

paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo

La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans

lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement

propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de

donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)

lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie

meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique

preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les

composants et les modules de la voie meacutetabolique

Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les

entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou

lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo

deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas

(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis

Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la

proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la

retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la

proteacuteine dans des voies meacutetaboliques

147

5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW

Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees

biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types

Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees

bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper

ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant

Ces outils doivent donc ecirctre

Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet

Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs

Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre

de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre

obligeacute de jongler avec diffeacuterentes sources dinformations

Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des

biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les

premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les

deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la

visualisation des annotations associeacutees Cette classification est toutefois quelque peu

scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de

donneacutees outils dinterrogation et outils de navigation sur le geacutenome

Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation

aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes

agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique

quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce

manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et

inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre

outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires

entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces

stockeacutees dans PseudomonasDW

51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)

Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas

facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs

points forts et plusieurs faiblesses

91

DataBank browsers 92

Genome browsers

148

Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente

la meilleure application pour la geacutenomique comparative mais dautre part un autre

navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec

beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de

deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et

qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest

pas aussi riche que Ensembl

Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux

besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave

Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen

attentif

Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur

geacutenomique pour PseudomonasDW

Ensembl est toute une application libre de droit dauteur sur son code source

qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le

neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute

et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse

ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et

la deacutecouverte et la reacutesolution de bugs plus difficile

Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des

avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute

que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le

fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans

le site Web Or la plupart des bases et banques de donneacutees geacutenomiques

existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme

navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs

utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le

trouveront plus aiseacute agrave manipuler

Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur

geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des

geacutenomes en plus de la rapiditeacute qui est indispensable

Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs

geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux

autres navigateurs (Sen et al 2010)

93

httpgmodorgwikiGBrowse

149

511 GBrowse Vue geacuteneacuterale

GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui

correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de

donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord

speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des

subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut

national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License

(ou GPL)

GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation

graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres

eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives

comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave

ADN GBrowse propose les fonctionnaliteacutes suivantes

vue globale et vue deacutetailleacutee du geacutenome

deacutefilement zoom et centrage

utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien

personnaliseacutees

joindre une URL arbitraire agrave une annotation

ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur

final

recherche par ID annotation nom ou commentaire

connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95

support multi-langues

prise en charge des annotations agrave partir du format GFF96

persistance des paramegravetres de session agrave session

plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de

nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des

cartes de restriction eacutediter des fonctions)

512 Installation de GBrowse

Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous

avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite

lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons

eu besoin drsquoinstaller

94

httpwwwbiosqlorgwikiMain_Page 95

httpgmodorgwikiChado_-_Getting_Started 96

httpgmodorgwikiGFF

150

Apache Web Server97

Perl 598

Les modules de Perl suivants

o GCI

o GD

o DBI

o DBD mysql

o Digest MD5

o Text shellwords

Bioperl99

Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi

drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une

installation automatique de GBrowse

adminadmin~$ sudo apt-get install gbrowse gbrowse-calign

gbrowse-data

La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les

donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de

gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec

sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape

drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des

adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature

que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD

le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est

le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations

au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer

la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB

SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le

plus reacutecent des adaptateurs et le plus recommandeacute

513 Creacuteation et peuplement des bases de donneacutees MySQL

Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une

eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par

PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque

chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees

relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce

97

httphttpdapacheorg 98

httpdevperlorgperl5 99

httpwwwbioperlorgwikiMain_Page

151

contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la

banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos

besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers

GFF3

La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de

donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait

la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans

PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees

pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees

MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par

lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant

Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse

adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn

dbimysqlDB_Name --user root --password

varlibgbrowsedatabasesfilegff3

La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles

soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de

fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la

forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de

GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui

152

srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le

paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de

configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi

nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour

donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante

Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse

nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un

onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave

lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil

GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage

reacutesultante

Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011

153

52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW

521 Blast Vue geacuteneacuterale

Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences

(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une

seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme

dun package composeacute des programmes suivants

blastn blast nucleacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques

blastp blast proteacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

proteacuteiques

blastx blast nucleacuteique vs proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

proteacuteiques

tblastn blast proteacuteique vs nucleacuteique

Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences

nucleacuteiques

tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique

Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences

nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences

nucleacuteiques

Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse

comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir

teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une

base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme

lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle

base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA

Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais

son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct

de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees

proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute

une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette

application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de

le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web

154

522 La fonctionnaliteacute du Blast

Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les

seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la

page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de

PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans

PseudomonasDW

Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW

La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la

possibiliteacute de PrimeblasterPrime ses seacutequences contre

Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences

(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences

agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees

comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le

choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la

partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses

extreacutemiteacutes

Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire

de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette

155

option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des

bases de donneacutees stockeacutees au niveau de PseudomonasDW

Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir

Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW

156

Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java

lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en

extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le

sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs

drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi

deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement

une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui

sera retourneacutee agrave lrsquoutilisateur via son navigateur Web

Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral

Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme

de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une

petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine

lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes

seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession

dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les

scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en

deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage

drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement

obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple

drsquoalignement

157

Figure50 Exemple de reacutesultat de Blast

6 PDWiki

Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons

deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de

donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des

informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies

meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts

diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive

Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les

Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous

introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa

maniegravere drsquoaccegraves

158

61 Geacuteneacuteraliteacute sur les Wikis biologiques

Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat

sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web

sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre

simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun

navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est

maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des

donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis

biologiques (bio-wikis) comprennent

Le deacuteveloppement collaboratif et le partage des connaissances

Lrsquoannotation collaborative de contenus de bases de donneacutees

La creacuteation collaborative de contenus de bases de donneacutees

Le deacuteveloppement collaboratif et le partage de la documentation et des

connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un

consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des

nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de

conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont

geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de

recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets

biologiques speacutecialiseacutes

Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait

que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement

coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de

donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux

utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats

indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler

cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien

que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de

donneacutees elles-mecircmes restent inchangeacutees

La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans

les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de

donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement

deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums

et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite

100

httpwwwwikipediaorg

159

62 PDWiki Infrastructure et contenue

PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki

baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et

correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des

extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de

diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104

automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de

MediaWiki

MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de

nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen

des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une

bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de

MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le

principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des

bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de

lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La

classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees

de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe

lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo

est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure

geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec

PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle

elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo

PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de

PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le

premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations

suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour

chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de

plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas

limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et

lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus

La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee

correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans

PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le

101

httpwwwmediawikiorgwikiMediaWiki 102

httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103

httpwwwmediawikiorgwikiExtension_Matrix 104

httpenwikipediaorgwikiWikipediaBots 105

httpjwbfsourceforgenet

160

nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans

PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas

modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir

PseudmonasDW

La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle

appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece

Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page

speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations

suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom

de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au

moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo

La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque

espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page

lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est

conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW

Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les

utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par

lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils

peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces

informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les

interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie

de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les

sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies

meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs

peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des

reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les

activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier

les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des

informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents

composants dans la section lsquoPathwaysrsquo

Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources

dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et

contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee

161

Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW

lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils

contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees

dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo

162

pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la

page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease

alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des

gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite

Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)

lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation

ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de

certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une

liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de

cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene

Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo

Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie

meacutetabolique apparaissant dans une page lsquoPDWEPrsquo

63 Comment naviguer dans PDWiki

Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la

recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des

pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur

163

gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct

sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est

de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de

recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les

pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au

sein de PDWiki en utilisant le formulaire de recherche

Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque

espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave

une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre

PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible

daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa

Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire

de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple

et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a

plusieurs avantages certains dentre eux sont

Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo

quand quelquun fait des modifications au niveau des pages de PDWiki

Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et

une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres

utilisateurs

Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages

qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106

7 DISCUSSION

Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes

modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm

2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves

Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de

Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans

cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base

de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des

bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire

agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur

lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les

plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de

106

httpwwwmediawikiorgwikiManualWatchlist

164

Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en

comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees

PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees

laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre

pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines

interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait

ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base

de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee

eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de

PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des

informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees

aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de

PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies

meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des

informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c

oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation

oxydative et la voie meacutetaboliques

Dautre part PseudomonasDW fournit des informations sur un ensemble plus

vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux

ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces

sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas

aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1

Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM

4166 et Pseudomonas chlororaphis

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

165

CONCLUSIONS ET PERSPECTIVES

166

Conclusions eacutet peacuterspeacutectiveacutes

Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante

bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3

comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon

rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur

mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile

et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P

syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain

Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des

infections pulmonaires mortelles chez les patients atteints de fibrose kystique

Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la

recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes

geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations

Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une

heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont

actuellement disponibles publiquement les types de donneacutees sont divers et les ressources

sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent

une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante

Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour

deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour

deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des

formats plus standard tels que XML (eg GenBank) A noter que les banques proposent

souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats

est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)

objet (eg Gus) ou semindashstructureacute (eg GenBank)

Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier

lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-

Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la

proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de

deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la

167

confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une

mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque

Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les

langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)

dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des

langages structureacutes tels que SQL (Genopage) ou OQL (Gus)

La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations

lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible

leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la

bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources

de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette

automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine

pour une recherche plus efficace des informations et une meilleure exploitation des

reacutesultats

Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute

proposeacutees les approches navigationnel entrepocirct et meacutediateur

Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont

extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les

deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des

sources ce sont des portails et des meacutediateurs

Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave

partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave

tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de

lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources

demandeacutees

Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou

lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de

donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales

La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement

les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de

donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre

drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves

couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de

requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour

La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par

lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global

168

preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois

qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees

est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par

les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la

transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute

drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit

tregraves freacutequemment sur le Web

Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement

inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le

cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe

KHAOS de lrsquouniversiteacute de Malage

Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de

donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les

sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent

autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees

biologiques

Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des

sources de donneacutees biologiques et comportent une description des divers niveaux

drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des

solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme

navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques

Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine

entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une

inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine

biologique afin de proposer une solution drsquointeacutegration simple et flexible

Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre

des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin

drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee

1 REacuteSUMEacute DES CONTRIBUTIONS

Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne

fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur

exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se

sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent

169

principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que

possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers

et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos

travaux concernent plusieurs points

Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees

biologiques de Pseudomonas Sp

La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas

requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de

donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi

proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees

heacuteteacuterogegravenes

PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et

inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web

PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp

Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus

drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de

repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les

sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW

integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq

sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot

BRENDA et KEGG

Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches

mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement

hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les

donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie

importante dans les services de donneacutees qui fournissent des moyens pour interroger et

correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le

processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des

requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les

transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services

de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees

Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce

manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine

de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute

utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de

donneacutees un service pour une source de donneacutees

PseudomonasDW integravegre des sources de donneacutees offrant des informations

chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets

170

eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique

pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration

seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global

inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce

scheacutema global inteacutegrateur

Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui

consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees

Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un

scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous

les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente

Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global

de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare

citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle

sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les

sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau

de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune

modification profonde

Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et

lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le

meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute

notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a

joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM

Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation

preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances

permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances

retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation

automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun

systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de

donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part

les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une

interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees

sont virtuellement acheveacutees en utilisant le meacutediateur

Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes

sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au

niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir

les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles

Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement

mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees

171

actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans

PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees

modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM

Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les

envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de

transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour

extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est

possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct

de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees

Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune

installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave

certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige

une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse

surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la

plateforme Linux

Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible

pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute

Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas

Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes

baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents

XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui

contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents

XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement

(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33

collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW

Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de

donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et

maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure

drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement

tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication

Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une

interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une

application web que nous avons deacuteveloppeacute en utilisant principalement quelques

technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript

JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20

172

Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques

pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons

incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il

affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des

gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est

un programme permettant de reacutealiser des alignements et des comparaisons locaux entre

deux seacutequences (nucleacuteiques ou proteacuteiques)

PseudomonasDW contient 170000 entreacutes et fournit des informations sur un

ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave

10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome

database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa

NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244

Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC

17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis

La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune

information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les

voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies

et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des

sections speacutecifiques pour les enzymes et les voies meacutetaboliques

Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest

pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la

plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques

classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les

donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux

utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant

davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de

nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes

2 OUVERTURE ET PISTES DE RECHERCHE

La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave

disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves

nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension

anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre

deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant

Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et

consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette

thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs

173

Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous

focalisant sur plusieurs points particuliers

Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW

Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance

accordeacutee agrave la source et sa qualiteacute estimeacutee

Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la

performance des donneacutees stockeacutees au niveau de PseudomonasDW

Automatiser la recherche de correspondance entre eacuteleacutements des

scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour

rendre lrsquoajout des nouvelles sources de donneacutees plus facile

Concernant lrsquointeacutegration des donneacutees

Inteacutegrer non seulement des sources de donneacutees mais aussi des services

Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres

anneacutees dans le domaine biologique et les perspectives offertes

semblent tregraves prometteuses

Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de

preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour

fouiller et comparer les donneacutees inteacutegreacutees

174

GLOSSAIRE

175

Glossaireacute

Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois

nucleacuteotides (codons) dans lrsquoARN

ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation

geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le

chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN

macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des

chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement

(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN

formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se

dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du

pheacutenomegravene de reacuteplication

Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions

hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus

complexe

Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences

codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation

syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les

entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit

les sources de donneacutees biologiques

API (Application Programming Interface) Interface pour langages de programmation

mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme

pour par exemple communiquer ou extraire des donneacutees

ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de

ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une

seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de

transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques

Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences

comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour

deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions

drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui

permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des

proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes

Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non

Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule

drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune

hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les

cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion

176

agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la

division cellulaire

Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros

serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et

unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture

est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees

Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte

deacutecisionnel deacutecentraliseacute

Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de

donneacutees exemple dimension temporelle dimension proteacuteique hellip

Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur

conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme

moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs

du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur

DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par

Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document

SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu

constitueacute par leurs sous-eacuteleacutements et leurs attributs

Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les

organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est

fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype

Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le

geacutenome nucleacuteaire

Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central

de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines

notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes

de reacutegulation

Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee

numeacuterique

FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et

William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le

programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines

Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et

porteur drsquoune information geacuteneacutetique

Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece

Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties

drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome

177

GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et

distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix

HTML (HyperText Markup Language) Langage de description de pages Web Un standard

initieacute par le W3C et compatible tous systegravemes

Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes

Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement

diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble

Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN

correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation

Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position

choisie)

Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme

drsquoun scheacutema de donneacutees

MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant

une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui

explique les performances Dans le second les jointures entre les tables de dimension et de fait sont

effectueacutees au moment de la requecircte

OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place

drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une

cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs

dimensions

Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin

OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de

lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant

Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave

linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le

deacuteclenchement de la transcription) et un ou plusieurs gegravenes

OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par

lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et

collections

Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports

baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration

systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau

(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de

maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec

celui-ci

178

Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique

(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique

notamment Un comportement particulier tout comme une combinaison de comportements

peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou

plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes

et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un

caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou

moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement

deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son

alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse

existe eacutegalement)

Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui

apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations

auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul

Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique

Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave

30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent

des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=

le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour

assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de

lrsquoinformation

Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une

comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un

support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou

ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees

compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus

ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit

syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le

type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et

quantifieacutes

Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser

les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le

principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave

CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot

contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN

tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-

repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du

meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De

maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment

correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de

caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents

dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des

suppresseurs de tumeurs

179

Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir

du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un

support meacutetallique et analyseacutees par spectromeacutetrie de masse

ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de

lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles

Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc

sous une forme plus deacutetailleacutee

Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe

concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine

informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des

informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux

neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies

Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides

amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN

(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage

drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit

fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes

Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie

par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides

(polymegraveres de nucleacuteotides)

Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet

indeacutependamment des plates-formes et des langages sur lesquelles elles reposent

SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels

permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du

domaine drsquoapplication

Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier

des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de

masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe

reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport

massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines

scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages

biologie meacutedecine

SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de

programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans

des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut

extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de

donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus

complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de

180

modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de

donneacutees et daccegraves

Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance

lrsquoidentification des formes vivantes et leur rangement dans une classification

Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome

URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur

uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant

lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour

adresser les ressources du World Wide Web telles que des documents HTML des images ou des

sons

Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet

Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct

et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux

ordinateurs et aux humains de travailler en plus eacutetroite collaboration

XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et

de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications

en diffeacuterents environnements hardware et software

Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements

dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un

sur-ensemble de XPath

181

ANNEXES

182

Anneacutexeacute 1 UML

La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996

UML est une norme de lOMG (Object Management Group) qui est un consortium des

principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive

homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune

seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants

UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent

ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre

UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des

systegravemes informatiques

Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur

Modegravele des classes capture la structure statique

Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages

Modegravele des eacutetats exprime le comportement dynamique des objets

Modegravele de deacuteploiement preacutecise la reacutepartition des processus

Modegravele de reacutealisation montre les uniteacutes de travail

Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant

correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de

diagrammes

Diagramme des classes structure statique il repreacutesente les classes

intervenant dans le systegraveme

Diagramme des eacutetatstransitions comportement dune classe en termes

deacutetats

Diagramme dobjets repreacutesentation des objets (des occurrences des

classes) et de leur relations ils correspondent agrave des diagrammes de

collaboration simplifieacutes (sans envoi de message)

183

Diagramme des paquetages un paquetage eacutetant un conteneur logique

permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le

Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages

crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions

Diagramme de structure composite permet de deacutecrire sous forme de

boicircte blanche les relations entre composants dune classe

Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs

interactions

Diagramme de communication repreacutesentation simplifieacutee dun diagramme

de seacutequence se concentrant sur les eacutechanges de messages entre les objets

Diagramme global dinteraction permet de deacutecrire les enchaicircnements

possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de

diagrammes de seacutequences

Diagramme de temps permet de deacutecrire les variations dune donneacutee au

cours du temps

Diagramme des cas dutilisation il permet didentifier les possibiliteacutes

dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les

fonctionnaliteacutes que doit fournir le systegraveme

Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration

en termes dactions

Diagramme de composants repreacutesentation des composants physiques

dune application

Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les

steacutereacuteotypes des classes ou des packages

Diagramme de deacuteploiement repreacutesentation du deacuteploiement des

composants sur les dispositifs mateacuteriels

184

Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes

Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la

premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de

Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute

dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant

devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une

deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante

Une base de donneacutees XML native deacutefinit un modegravele logique pour un document

XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au

minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du

document

Une base de donneacutees XML native gegravere le document XML comme une uniteacute

fondamentale de stockage comme une ligne dans une table relationnelle

Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent

particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique

orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers

compresseacutes indexeacutes

La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de

donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain

nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de

donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de

lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc

La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale

dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible

qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents

lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des

bases de donneacutees XML actuelles

La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas

important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de

185

donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest

pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait

envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees

XML native comme eXist lrsquoa fait agrave ses deacutebuts

Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement

pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les

transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des

langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc

parfaitement dans notre approche entiegraverement baseacutee sur XML

186

Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute

Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de

donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate

Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute

sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace

drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience

drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel

Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage

propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves

actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est

compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un

processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une

application

eXist fournit un stockage sans scheacutema des documents XML dans des collections

hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des

documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs

peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents

contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement

de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification

rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-

descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de

chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement

les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de

documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions

La base de donneacutees convient bien aux applications manipulant des petites ou larges

collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute

conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant

lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes

XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath

187

et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre

autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres

Architecture drsquoeXist

eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement

agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents

XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale

Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement

seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des

courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et

les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques

comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles

possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un

ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et

XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du

cœur drsquoeXist

eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut

fonctionner comme un processus serveur autonome fournissant des interfaces http et

XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles

peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut

fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-

RPC SOAP109 et WebDAV110 sont fournis par les servlets

Figure 53 Architecture deXist copy Wolfgang Meier

107

httpxmlrpcscriptingcomspechtml 108

httpxmldb-orgsourceforgenetxapixapi-drafthtml 109

httpwwww3org2000xpGroup 110

httpwwwietforgrfcrfc2518txt

188

BIBLIOGRAPHIE

189

Bibliographieacute

Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125

Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary

Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442

Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410

Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381

Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29

Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress

Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press

Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520

Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155

Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE

Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178

Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37

Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15

Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863

Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314

190

Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104

Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333

Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille

Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7

Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53

Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet

Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons

Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192

Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates

Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences

Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193

Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93

Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III

Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69

Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis

Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148

Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306

Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie

Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592

Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74

191

Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87

Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345

Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979

Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy

Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique

Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531

Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572

Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53

Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822

Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc

Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432

Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20

Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57

Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128

Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68

Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469

Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris

Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73

192

Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research

Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8

Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788

Gautier C (1981) Nucleic acid sequences handbook Praeger

Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523

Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance

Griffith A (2005) Java XML and the JAXP In Wiley (ed)

Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928

Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174

Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264

Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153

Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511

Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9

Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119

Harold ER and Means WS (2004) XML in a Nutshell OReilly Media

Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA

Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915

Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60

Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190

Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448

Hunter J (2003) X is for Query Oracle Magazine

Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York

Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)

193

Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541

Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology

Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)

Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30

Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357

Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280

Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59

Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169

Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley

Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337

Kimball R (2002) data warehouse toolkit

Kimball R (2003) The Bottom-Up Misnomer

King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18

Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper

Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web

Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597

Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283

Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138

Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni

Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170

194

Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268

Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441

List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215

MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA

Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562

Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144

Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348

Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105

Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381

Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378

Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755

McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)

McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587

Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34

Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376

Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477

Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537

Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall

Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65

195

Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269

Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga

Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622

Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230

Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2

Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846

Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125

Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350

Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163

Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171

Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)

Rehm B (2009) Pseudomonas Wiley-VCH

Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557

Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996

Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149

Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84

Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010

Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696

Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236

Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243

Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871

196

Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York

Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186

Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188

Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141

Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298

Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73

Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110

Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276

Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298

Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis

Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717

Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49

Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488

Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6

Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150

Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373

Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33

197

Reacute feacute reacutenceacutes Inteacuterneacutet

198

Reacute feacute reacutenceacutes Inteacuterneacutet

(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml

AmiGO httpamigogeneontologyorgcgi-binamigogocgi

Apache Server httphttpdapacheorg

ArrayExpress httpwwwebiacukarrayexpress

ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm

Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm

Axis httpwsapacheorgaxisoverviewhtml

BioCyc httpbiocycorg

BioGrid httpthebiogridorg

Bioperl httpwwwbioperlorgwikiMain_Page

biosql httpwwwbiosqlorgwikiMain_Page

Blast httpblastncbinlmnihgovBlastcgi

Bots httpenwikipediaorgwikiWikipediaBots

BRENDA httpwwwbrenda-enzymesinfo

Chado httpgmodorgwikiChado_-_Getting_Started

ChEBI httpwwwebiacukchebi

CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

core httpdublincoreorg

CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast

dbEST httpwwwncbinlmnihgovdbEST

dbSNP httpwwwncbinlmnihgovprojectsSNP

DDBJ httpwwwddbjnigacjp

Dublin Core httpdublincoreorg

EBI httpwwwebiacuk

EcoCyc httpecocycorg

EMBL httpwwwemblde

EMBO httpwwwemboorg

ensEMBL httpwwwensemblorgindexhtml

Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric

Entrez httpwwwncbinlmnihgovsitesgquery

EPConDB httpwwwcbilupenneduepcondb42

eXist httpexistsourceforgenet

199

ExPASy httpexpasyorg

ExPASy httpexpasyorg

Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix

FASTA httpwwwebiacukToolssssfasta

Flybase httpflybaseorg

Garlic httpwwwalmadenibmcomcsgarlic

Gbrowse httpgmodorgwikiGBrowse

GDB httpgdbwwwgdborg

Genbank httpwwwncbinlmnihgovnuccore

GeneCards httpwwwgenecardsorg

GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame

GEO httpwwwncbinlmnihgovgeo

GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet

GFF httpgmodorgwikiGFF

GO httpwwwgeneontologyorg

HGNC httpwwwgenenamesorg

IMG httpimgjgidoegov

inmon httpenwikipediaorgwikiBill_Inmon

InterPro httpwwwebiacukinterpro

Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml

JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi

jena httpjenaapacheorg

Jetty httpjettycodehausorgjetty

JWBF httpjwbfsourceforgenet

KEGG httpwwwgenomejpkegg

LION Bioscience AG httpwwwbiochipnetcomnode1561

MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings

Medline httpwwwmedlinecom

MeSH httpwwwnlmnihgovmesh

MetaCyc httpmetacycorg

MGI httpwwwinformaticsjaxorg

Microbes Online httpwwwmicrobesonlineorg

MIPS httpwwwhelmholtz-muenchendeenibis

MySQL httpwwwmysqlcom

NCBI httpwwwncbinlmnihgov

NIH httpwwwnihgov

OBO httpwwwobofoundryorg

ODMG wwwodmgorg

OMIM httpwwwomimorg

ORACLE httpwwworaclecomindexhtml

OWL httpwwww3orgTR2009WD-owl2-primer-20090611

PDB httpwwwrcsborgpdbhomehomedo

200

peer-review literature httpenwikipediaorgwikiPeer_review

perl httpdevperlorgperl5

Pfam httppfamsangeracuk

PhosphGrid httpwwwphosphogridorg

Plasmodb httpplasmodborgplasmo

ProDom httpprodomprabifrprodomcurrenthtmlhomephp

PRODORIC httpwwwprodoricde

Proteacutegeacute httpprotegestanfordedu

Pseudomonas Genome Database httpwwwpseudomonascom

Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg

PseudomonasDW httpwwwpseudomonasdwkhaosumaes

PubMed httpwwwncbinlmnihgovpubmed

Qexo httpwwwxmlcompuba20030611qexohtml

RDF httpwwww3orgTRrdf-concepts

RDFS httpwwww3orgTRrdf-schema

RefSeq httpwwwncbinlmnihgovRefSeq

RiboWeb httphelix-webstanfordeduribowebhtml

SGD database httpwwwyeastgenomeorg

SRS httpsrsebiacuk

Tomcat httptomcatapacheorg

UML httpwwwumlorg

UMLS httpwwwnlmnihgovresearchumls

UniGene httpwwwncbinlmnihgovunigene

UniProt httpwwwuniprotorg

W3C httpwwww3org

watchlist httpwwwmediawikiorgwikiManualWatchlist

WebDAV httpwwwietforgrfcrfc2518txt

Wikipedia httpwwwwikipediaorg

xBASE httpwwwxbaseacuk

XML httpwwww3schoolscomxml

XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml

XML-RPC httpxmlrpcscriptingcomspechtml

XML-RPC SOAP httpwwww3org2000xpGroup

ZFIN httpzfinorg

Page 6: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 7: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 8: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 9: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 10: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 11: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 12: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 13: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 14: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 15: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 16: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 17: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 18: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 19: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 20: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 21: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 22: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 23: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 24: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 25: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 26: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 27: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 28: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 29: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 30: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 31: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 32: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 33: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 34: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 35: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 36: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 37: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 38: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 39: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 40: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 41: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 42: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 43: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 44: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 45: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 46: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 47: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 48: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 49: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 50: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 51: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 52: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 53: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 54: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 55: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 56: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 57: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 58: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 59: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 60: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 61: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 62: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 63: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 64: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 65: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 66: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 67: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 68: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 69: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 70: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 71: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 72: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 73: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 74: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 75: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 76: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 77: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 78: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 79: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 80: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 81: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 82: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 83: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 84: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 85: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 86: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 87: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 88: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 89: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 90: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 91: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 92: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 93: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 94: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 95: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 96: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 97: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 98: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 99: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 100: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 101: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 102: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 103: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 104: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 105: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 106: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 107: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 108: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 109: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 110: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 111: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 112: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 113: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 114: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 115: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 116: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 117: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 118: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 119: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 120: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 121: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 122: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 123: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 124: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 125: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 126: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 127: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 128: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 129: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 130: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 131: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 132: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 133: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 134: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 135: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 136: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 137: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 138: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 139: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 140: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 141: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 142: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 143: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 144: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 145: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 146: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 147: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 148: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 149: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 150: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 151: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 152: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 153: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 154: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 155: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 156: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 157: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 158: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 159: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 160: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 161: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 162: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 163: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 164: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 165: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 166: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 167: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 168: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 169: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 170: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 171: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 172: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 173: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 174: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 175: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 176: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 177: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 178: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 179: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 180: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 181: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 182: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 183: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 184: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 185: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 186: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 187: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 188: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 189: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 190: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 191: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 192: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 193: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 194: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 195: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 196: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 197: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 198: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 199: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 200: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 201: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 202: UNIVERSITE ABDELMALEK ESSAADI - IMIST
Page 203: UNIVERSITE ABDELMALEK ESSAADI - IMIST