Ontologies et Système d'information

23
Ontologies et Système d'information Patrice Duroux Ingénieur de Recherche CNRS Laboratoire d’ImmunoGénétique Moléculaire Université Montpellier, UPR CNRS 1142, IGH http://imgt.cines.fr “Bioinformatique et ontologies” Module MED, Montpellier, 22 mai 2008

Transcript of Ontologies et Système d'information

Page 1: Ontologies et Système d'information

Ontologies et Système d'information

Patrice Duroux

Ingénieur de Recherche CNRSLaboratoire d’ImmunoGénétique MoléculaireUniversité Montpellier, UPR CNRS 1142, IGH

http://imgt.cines.fr

“Bioinformatique et ontologies”Module MED, Montpellier, 22 mai 2008

Page 2: Ontologies et Système d'information

1)1)Système d'information : une définition ?Système d'information : une définition ?

2)2)Méthodologie et formalismeMéthodologie et formalisme

3)3)IMGTIMGT® et système d'information® et système d'information

4)4)Avec outils et technologiesAvec outils et technologies

5)5)Étude de cas : IMGT/3Dstructure-DBÉtude de cas : IMGT/3Dstructure-DB

6)6)ConclusionConclusion

PlanPlan

Page 3: Ontologies et Système d'information

Système d'informationSystème d'information

Informatique comme sInformatique comme science du traitement de l'informationcience du traitement de l'information

Besoin du concept de systèmeBesoin du concept de système

Système d'information Système d'information ≠≠ 1 logiciel ? N logiciels ? 1 logiciel ? N logiciels ?

Notion de ressources humaines et matériellesNotion de ressources humaines et matérielles

Vu d'un ensemble organiséVu d'un ensemble organisé

Page 4: Ontologies et Système d'information

Méthodologie et formalismeMéthodologie et formalisme

Aujourd'hui : MERISE ou / et UML ?Aujourd'hui : MERISE ou / et UML ?

MERISEMERISE : : MMéthode d'éthode d'EEtude et de tude et de RRéalisation éalisation IInformatique nformatique pour les pour les SSystèmes d'ystèmes d'EEntreprisentreprise

(fin années 70, fruit d'une consultation nationale du Ministère)(fin années 70, fruit d'une consultation nationale du Ministère)

Méthodologie odèle conceptuel et physiqueMéthodologie odèle conceptuel et physique

Approche données/traitementsApproche données/traitements

UMLUML : : UUnified nified MModeling odeling LLanguageanguage

(années 90, factorise des méthodes objets exsitantes : OMT, (années 90, factorise des méthodes objets exsitantes : OMT, Booch et OOSE)Booch et OOSE)

Notation (type de diagrammes) et recommandationNotation (type de diagrammes) et recommandation

Approche objetApproche objet

Page 5: Ontologies et Système d'information

MERISE : démarche selon 3 axesMERISE : démarche selon 3 axes

Cycle de décision

Cycle d'abstraction

Cycle de vie

➔Schéma directeur➔Étude préalable (MCT + ébauche MCD)➔Étude détaillée (MCD + MOT + MLD)➔Étude technique (MPD)➔Réalisation➔Mise en oeuvre➔Maintenance

➔Identification➔Gestion➔Organisation➔Technique➔Economique

➔Expression des besoins➔Modèles Conceptuels➔Modèles Logiques➔Modèles Physiques

Page 6: Ontologies et Système d'information

Cycle d'abstraction pour la conceptionCycle d'abstraction pour la conception

Expression des besoins

Modèle conceptuel

Modèle logique

Modèle physique

Manuel

Automatisé

Révision

•Enchaînement de grandes étapes•Vérifier la concordance des données et des traitements (oubli ? superflu ?)

Page 7: Ontologies et Système d'information

IMGT® : quid ?IMGT® : quid ?

Une encyclopédie de connaissance et banque de données en Une encyclopédie de connaissance et banque de données en immunogénétique ?immunogénétique ?

Un portail Internet ?Un portail Internet ?

Une plate-forme ?Une plate-forme ?

Un ensemble de services ?Un ensemble de services ?

Un système d'information ?Un système d'information ?

Page 8: Ontologies et Système d'information

Ressource (1) : une équipeRessource (1) : une équipe

Page 9: Ontologies et Système d'information

Parc informatique : 3 serveurs pour le portail public, 3 serveurs et 15 postes Parc informatique : 3 serveurs pour le portail public, 3 serveurs et 15 postes pour le développement, le test et le portail Intranet.pour le développement, le test et le portail Intranet.

Bases de données Bases de données disponiblesdisponibles : :

4 de séquences annotées : IMGT/LIGM-DB, IMGT/MHC-DB, 4 de séquences annotées : IMGT/LIGM-DB, IMGT/MHC-DB, IMGT/PRIMER-DB and IMGT/Protein-DB,IMGT/PRIMER-DB and IMGT/Protein-DB,1 de gènes : IMGT/GENE-DB,1 de gènes : IMGT/GENE-DB,1 de structures 3-dimensionnelles : IMGT/3Dstructure-DB.1 de structures 3-dimensionnelles : IMGT/3Dstructure-DB.

et et 15 outils interactifs en ligne :15 outils interactifs en ligne :

Ressource (2) : un environnement informatiqueRessource (2) : un environnement informatique

Page 10: Ontologies et Système d'information

Bases de données et outils sur le portailBases de données et outils sur le portail

Page 11: Ontologies et Système d'information

MCT/MPD pour la mise à jour des données du portailMCT/MPD pour la mise à jour des données du portail

Production Explotation

WEB

Expertise

SearchRelease

Selection

Update

IMGT/LIGM-DB (Sybase), IMGT/GENE-DB (Sybase),

IMGT/3Dstructure-DB (MySQL)

ftp, EMBLfetch, wget

HTML, PHP+CSV, Java (cgi & servlets), Perl (cgi)

scp,rsync

Java, scripts

Databases

Files

Files

Files

Files

HTML, CSV

Page 12: Ontologies et Système d'information

LIGM-DB : MPD en chiffresLIGM-DB : MPD en chiffres

123 105 fiches EMBL, 1 base Sybase (3,9 Go)

Attributs 230Tables 105Colonnes 527Triggers 54Procédures 21

Espèces 231Séquences 123 105

K 95 558A 27 547

Keywords 184Labels 232Specificities 670Features 509 038Nucleotides 102 397 151

Page 13: Ontologies et Système d'information

EMBL entries

IMGT/LIGM-DB

NEW UPDATED CONFLICT REJECTED

Java programs, Sybase procedures, scripts, BLAST...

800-4000 sequences/month

EM

BL

EM

BL

IMG

TIM

GT

Selection

EM

BL

EM

BL

IMGT/LIGM-DB (with EMBL)IMGT/LIGM-DB (with EMBL)Only IG and TR

ftp EBI

ftp IMGT and EBI

Release

IMGT entries in SRS

Reception

Expertise

Cleaned once a month

Java programs and scriptWeekly

IMGT Repertoire

Page 14: Ontologies et Système d'information

IMGT/LIGM-DB : mouvement des donnéesIMGT/LIGM-DB : mouvement des données

0

1000

2000

3000

4000

5000

6000

700003

/01/

06

10/0

2/06

09/0

3/06

11/0

4/06

15/0

5/06

07/0

6/06

20/0

7/06

13/0

9/06

11/1

0/06

06/1

1/06

10/1

1/06

11/1

2/06

08/0

1/07

16/0

4/07

29/0

5/07

12/0

6/07

16/0

8/07

06/0

9/07

12/0

9/07

28/0

9/07

10/1

0/07

Rejected

Updated

New

Page 15: Ontologies et Système d'information

EMSEMBL entries

IMG

TIM

GT

IMGT entries in ENSEMBL Genome Browser

EM

SE

MB

LE

MS

EM

BL

IMGT/GENE-DB (with ENSEMBL)IMGT/GENE-DB (with ENSEMBL)

Reference alleles only

EM

SE

MB

LE

MS

EM

BL

DAS Server

Localization/Orientation IMGT/GENE-DB

IMGT/LIGM-DB

IMGT Repertoire

Expertise

Perl programsand BLAST...

Downloaded just once for a locus/species

Java programs,scripts, BLAST...

Export

Perl Proserver

Page 16: Ontologies et Système d'information

GENE-DB : MPD en chiffresGENE-DB : MPD en chiffres

1 base Sybase (52 Mo)

Attributs 105Tables 51Colonnes 422Triggers 45Procédures 6

Espèces 8Gènes 1 900Allèles 2 894Nucléotides 729 768

Page 17: Ontologies et Système d'information

IMG

TIM

GT

IMGT/3Dstructure-DB (with PDB)IMGT/3Dstructure-DB (with PDB)

Different tests : - the access number already exists ?- the keywords, new sequences ?

PD

B

PD

B

RC

SB

RC

SB

NEW UPDATED DELETED

Expertise

KEPT

Selection

Weekly

Download

REMOVEDREJECTED

Perl programs with FASTA and structural analysis tools (STRIDE and PROFIT)…

IMGT/GENE-DB

IMGT/3Dstructure-DB

PDB entries

Page 18: Ontologies et Système d'information

LIGM-DB : MPD en chiffresLIGM-DB : MPD en chiffres

123 105 fiches EMBL, 1 base Sybase (3,9 Go)

Attributs 230Tables 105Colonnes 527Triggers 54Procédures 21

Espèces 231Séquences 123 105

K 95 558A 27 547

Keywords 184Labels 232Specificities 670Features 509 038Nucleotides 102 397 151

Page 19: Ontologies et Système d'information

IMGT/3Dstructure-DB (with PDB)IMGT/3Dstructure-DB (with PDB)

0

20

40

60

80

100

12012

/05/

06

02/0

6/06

30/0

6/06

28/0

7/06

01/0

9/06

13/1

0/06

03/1

1/06

24/1

1/06

15/1

2/06

12/0

1/07

02/0

2/07

23/0

2/07

16/0

3/07

06/0

4/07

27/0

4/07

18/0

5/07

08/0

6/07

29/0

6/07

20/0

7/07

10/0

8/07

31/0

8/07

21/0

9/07

12/1

0/07

New

Page 20: Ontologies et Système d'information

Exemple : la structure 1IGTExemple : la structure 1IGT

V-DOMAINs

C-DOMAINsHINGEs

L-KAPPAs

H-GAMMA-2As

Page 21: Ontologies et Système d'information

3Dstructure-DB : un pré MCD3Dstructure-DB : un pré MCD

Page 22: Ontologies et Système d'information

3Dstructure-DB : un fragment du MPD3Dstructure-DB : un fragment du MPD

ReceptorType(receptortypeid,receptortype)MainReceptorDescr(mainreceptordescrid,definition,label)ReceptorDescr(receptordescrid,@mainreceptordescrid,definition,label)MainDomDescr(maindomdescrid,definition,label)DomDescr(domdescrid,@maindomdescrid,definition,label,domtype)ChainDescr(chaindescrid,definition,label)Dom_ChainDescr(domchaindescrid,@domdescrid,@chaindescrid,numdom)Chain_ReceptorDescr(chainreceptordescrid,@chaindescrid,@receptordescrid,numchain)

Groupe(groupid,groupe,@receptortypeid)Espece(especeid,latin,english,abb)Subgroup(subgroupid,subgroup,@groupid,@especeid)Gene(geneid,gene,@groupid,@subgroupid,@especeid)

Page 23: Ontologies et Système d'information

ConclusionConclusion

Système d'information pour IMGT : un long cheminementSystème d'information pour IMGT : un long cheminement

Outil conceptuel de collaborationOutil conceptuel de collaboration

Opportun à la Démarche Qualité et la gestion de projetsOpportun à la Démarche Qualité et la gestion de projets

Ontologie : un bon support pour les modèles de donnéesOntologie : un bon support pour les modèles de données