Ontologies et Système d'information
Transcript of Ontologies et Système d'information
Ontologies et Système d'information
Patrice Duroux
Ingénieur de Recherche CNRSLaboratoire d’ImmunoGénétique MoléculaireUniversité Montpellier, UPR CNRS 1142, IGH
http://imgt.cines.fr
“Bioinformatique et ontologies”Module MED, Montpellier, 22 mai 2008
1)1)Système d'information : une définition ?Système d'information : une définition ?
2)2)Méthodologie et formalismeMéthodologie et formalisme
3)3)IMGTIMGT® et système d'information® et système d'information
4)4)Avec outils et technologiesAvec outils et technologies
5)5)Étude de cas : IMGT/3Dstructure-DBÉtude de cas : IMGT/3Dstructure-DB
6)6)ConclusionConclusion
PlanPlan
Système d'informationSystème d'information
Informatique comme sInformatique comme science du traitement de l'informationcience du traitement de l'information
Besoin du concept de systèmeBesoin du concept de système
Système d'information Système d'information ≠≠ 1 logiciel ? N logiciels ? 1 logiciel ? N logiciels ?
Notion de ressources humaines et matériellesNotion de ressources humaines et matérielles
Vu d'un ensemble organiséVu d'un ensemble organisé
Méthodologie et formalismeMéthodologie et formalisme
Aujourd'hui : MERISE ou / et UML ?Aujourd'hui : MERISE ou / et UML ?
MERISEMERISE : : MMéthode d'éthode d'EEtude et de tude et de RRéalisation éalisation IInformatique nformatique pour les pour les SSystèmes d'ystèmes d'EEntreprisentreprise
(fin années 70, fruit d'une consultation nationale du Ministère)(fin années 70, fruit d'une consultation nationale du Ministère)
Méthodologie odèle conceptuel et physiqueMéthodologie odèle conceptuel et physique
Approche données/traitementsApproche données/traitements
UMLUML : : UUnified nified MModeling odeling LLanguageanguage
(années 90, factorise des méthodes objets exsitantes : OMT, (années 90, factorise des méthodes objets exsitantes : OMT, Booch et OOSE)Booch et OOSE)
Notation (type de diagrammes) et recommandationNotation (type de diagrammes) et recommandation
Approche objetApproche objet
MERISE : démarche selon 3 axesMERISE : démarche selon 3 axes
Cycle de décision
Cycle d'abstraction
Cycle de vie
➔Schéma directeur➔Étude préalable (MCT + ébauche MCD)➔Étude détaillée (MCD + MOT + MLD)➔Étude technique (MPD)➔Réalisation➔Mise en oeuvre➔Maintenance
➔Identification➔Gestion➔Organisation➔Technique➔Economique
➔Expression des besoins➔Modèles Conceptuels➔Modèles Logiques➔Modèles Physiques
Cycle d'abstraction pour la conceptionCycle d'abstraction pour la conception
Expression des besoins
Modèle conceptuel
Modèle logique
Modèle physique
Manuel
Automatisé
Révision
•Enchaînement de grandes étapes•Vérifier la concordance des données et des traitements (oubli ? superflu ?)
IMGT® : quid ?IMGT® : quid ?
Une encyclopédie de connaissance et banque de données en Une encyclopédie de connaissance et banque de données en immunogénétique ?immunogénétique ?
Un portail Internet ?Un portail Internet ?
Une plate-forme ?Une plate-forme ?
Un ensemble de services ?Un ensemble de services ?
Un système d'information ?Un système d'information ?
Ressource (1) : une équipeRessource (1) : une équipe
Parc informatique : 3 serveurs pour le portail public, 3 serveurs et 15 postes Parc informatique : 3 serveurs pour le portail public, 3 serveurs et 15 postes pour le développement, le test et le portail Intranet.pour le développement, le test et le portail Intranet.
Bases de données Bases de données disponiblesdisponibles : :
4 de séquences annotées : IMGT/LIGM-DB, IMGT/MHC-DB, 4 de séquences annotées : IMGT/LIGM-DB, IMGT/MHC-DB, IMGT/PRIMER-DB and IMGT/Protein-DB,IMGT/PRIMER-DB and IMGT/Protein-DB,1 de gènes : IMGT/GENE-DB,1 de gènes : IMGT/GENE-DB,1 de structures 3-dimensionnelles : IMGT/3Dstructure-DB.1 de structures 3-dimensionnelles : IMGT/3Dstructure-DB.
et et 15 outils interactifs en ligne :15 outils interactifs en ligne :
Ressource (2) : un environnement informatiqueRessource (2) : un environnement informatique
Bases de données et outils sur le portailBases de données et outils sur le portail
MCT/MPD pour la mise à jour des données du portailMCT/MPD pour la mise à jour des données du portail
Production Explotation
WEB
Expertise
SearchRelease
Selection
Update
IMGT/LIGM-DB (Sybase), IMGT/GENE-DB (Sybase),
IMGT/3Dstructure-DB (MySQL)
ftp, EMBLfetch, wget
HTML, PHP+CSV, Java (cgi & servlets), Perl (cgi)
scp,rsync
Java, scripts
Databases
Files
Files
Files
Files
HTML, CSV
LIGM-DB : MPD en chiffresLIGM-DB : MPD en chiffres
123 105 fiches EMBL, 1 base Sybase (3,9 Go)
Attributs 230Tables 105Colonnes 527Triggers 54Procédures 21
Espèces 231Séquences 123 105
K 95 558A 27 547
Keywords 184Labels 232Specificities 670Features 509 038Nucleotides 102 397 151
EMBL entries
IMGT/LIGM-DB
NEW UPDATED CONFLICT REJECTED
Java programs, Sybase procedures, scripts, BLAST...
800-4000 sequences/month
EM
BL
EM
BL
IMG
TIM
GT
Selection
EM
BL
EM
BL
IMGT/LIGM-DB (with EMBL)IMGT/LIGM-DB (with EMBL)Only IG and TR
ftp EBI
ftp IMGT and EBI
Release
IMGT entries in SRS
Reception
Expertise
Cleaned once a month
Java programs and scriptWeekly
IMGT Repertoire
IMGT/LIGM-DB : mouvement des donnéesIMGT/LIGM-DB : mouvement des données
0
1000
2000
3000
4000
5000
6000
700003
/01/
06
10/0
2/06
09/0
3/06
11/0
4/06
15/0
5/06
07/0
6/06
20/0
7/06
13/0
9/06
11/1
0/06
06/1
1/06
10/1
1/06
11/1
2/06
08/0
1/07
16/0
4/07
29/0
5/07
12/0
6/07
16/0
8/07
06/0
9/07
12/0
9/07
28/0
9/07
10/1
0/07
Rejected
Updated
New
EMSEMBL entries
IMG
TIM
GT
IMGT entries in ENSEMBL Genome Browser
EM
SE
MB
LE
MS
EM
BL
IMGT/GENE-DB (with ENSEMBL)IMGT/GENE-DB (with ENSEMBL)
Reference alleles only
EM
SE
MB
LE
MS
EM
BL
DAS Server
Localization/Orientation IMGT/GENE-DB
IMGT/LIGM-DB
IMGT Repertoire
Expertise
Perl programsand BLAST...
Downloaded just once for a locus/species
Java programs,scripts, BLAST...
Export
Perl Proserver
GENE-DB : MPD en chiffresGENE-DB : MPD en chiffres
1 base Sybase (52 Mo)
Attributs 105Tables 51Colonnes 422Triggers 45Procédures 6
Espèces 8Gènes 1 900Allèles 2 894Nucléotides 729 768
IMG
TIM
GT
IMGT/3Dstructure-DB (with PDB)IMGT/3Dstructure-DB (with PDB)
Different tests : - the access number already exists ?- the keywords, new sequences ?
PD
B
PD
B
RC
SB
RC
SB
NEW UPDATED DELETED
Expertise
KEPT
Selection
Weekly
Download
REMOVEDREJECTED
Perl programs with FASTA and structural analysis tools (STRIDE and PROFIT)…
IMGT/GENE-DB
IMGT/3Dstructure-DB
PDB entries
LIGM-DB : MPD en chiffresLIGM-DB : MPD en chiffres
123 105 fiches EMBL, 1 base Sybase (3,9 Go)
Attributs 230Tables 105Colonnes 527Triggers 54Procédures 21
Espèces 231Séquences 123 105
K 95 558A 27 547
Keywords 184Labels 232Specificities 670Features 509 038Nucleotides 102 397 151
IMGT/3Dstructure-DB (with PDB)IMGT/3Dstructure-DB (with PDB)
0
20
40
60
80
100
12012
/05/
06
02/0
6/06
30/0
6/06
28/0
7/06
01/0
9/06
13/1
0/06
03/1
1/06
24/1
1/06
15/1
2/06
12/0
1/07
02/0
2/07
23/0
2/07
16/0
3/07
06/0
4/07
27/0
4/07
18/0
5/07
08/0
6/07
29/0
6/07
20/0
7/07
10/0
8/07
31/0
8/07
21/0
9/07
12/1
0/07
New
Exemple : la structure 1IGTExemple : la structure 1IGT
V-DOMAINs
C-DOMAINsHINGEs
L-KAPPAs
H-GAMMA-2As
3Dstructure-DB : un pré MCD3Dstructure-DB : un pré MCD
3Dstructure-DB : un fragment du MPD3Dstructure-DB : un fragment du MPD
ReceptorType(receptortypeid,receptortype)MainReceptorDescr(mainreceptordescrid,definition,label)ReceptorDescr(receptordescrid,@mainreceptordescrid,definition,label)MainDomDescr(maindomdescrid,definition,label)DomDescr(domdescrid,@maindomdescrid,definition,label,domtype)ChainDescr(chaindescrid,definition,label)Dom_ChainDescr(domchaindescrid,@domdescrid,@chaindescrid,numdom)Chain_ReceptorDescr(chainreceptordescrid,@chaindescrid,@receptordescrid,numchain)
Groupe(groupid,groupe,@receptortypeid)Espece(especeid,latin,english,abb)Subgroup(subgroupid,subgroup,@groupid,@especeid)Gene(geneid,gene,@groupid,@subgroupid,@especeid)
ConclusionConclusion
Système d'information pour IMGT : un long cheminementSystème d'information pour IMGT : un long cheminement
Outil conceptuel de collaborationOutil conceptuel de collaboration
Opportun à la Démarche Qualité et la gestion de projetsOpportun à la Démarche Qualité et la gestion de projets
Ontologie : un bon support pour les modèles de donnéesOntologie : un bon support pour les modèles de données