Construction automatique d'ontologies à partir de spécifications de bases de données

20

Click here to load reader

description

Présentation de Mouna Kamel et Nathalie Aussenac-Gilles à la conférence IC 2009

Transcript of Construction automatique d'ontologies à partir de spécifications de bases de données

Page 1: Construction automatique d'ontologies à partir de spécifications de bases de données

IC 2009 11

Construction automatique d’ontologie à partir de

spécifications de base de données

M. Kamel, N. Aussenac-Gilles(IRIT – IC3, Toulouse, France)

[email protected], [email protected]

Projet ANR Masse de données GEONTOPartenaires : LRI-IASI, LIUPPA – Desi et IGN-COGIT

Page 2: Construction automatique d'ontologies à partir de spécifications de bases de données

2IC 2009

Construction d'ontologie à partir de spécifications de BD

Problématique : construction d’ontologies à partir de textes

� Analyse du contenu linguistique� Approches linguistiques

� Exploitation des relations syntaxiques et de connaissances sur la langue

� Patrons d’extraction (de termes / de relations)

� Approches statistiques� Exploitation des régularités de séquences de

termes (co-occurrences, segments répétés …)

� Clustering

� Exploiter la structure des textes et la mise en forme matérielle

Extractiontermes - relations

Textes

Modélisationontologie

Page 3: Construction automatique d'ontologies à partir de spécifications de bases de données

3IC 2009

Construction d'ontologie à partir de spécifications de BD

Contexte : GEONTO

� Textes� Spécifications de bases de données� Documents XML ayant le même XML schéma� Sémantique des tags : précise, définit des concepts

et des relations� Méthode

� Applicable à plusieurs bases de données� Automatique

� Ontologies obtenues� Une ontologie par BD� Alignement des ontologies et intervention humaine� vers une ontologie unique de référence

� Validation� Comparaison entre ontologie extraite et une

ontologie existante tirée des mêmes spécifications

ExtractionConcepts - relations

OntoTOPO

BD-TOPO

Spécifications

Constructionontologie

Page 4: Construction automatique d'ontologies à partir de spécifications de bases de données

4IC 2009

Construction d'ontologie à partir de spécifications de BD

Textes : spécifications de BDTopo

Concepts présents dans les champs:

- Domaine

- Classe

- Regroupement

- Attribut

- Valeur d’attribut

Page 5: Construction automatique d'ontologies à partir de spécifications de bases de données

5IC 2009

Construction d'ontologie à partir de spécifications de BD

Rel. hiérarchique est-un :

- Domaine / Classe

- Classe / Regroup.

- Attribut / Valeur d’attrib.

- Valeur d’attrib. / Regroup.

Textes : spécifications de BDTopo

Page 6: Construction automatique d'ontologies à partir de spécifications de bases de données

6IC 2009

Construction d'ontologie à partir de spécifications de BD

Autres relations sémantiques

Propriétés

Classe / Attribut qualitatif

Classe / Attribut quantitatif

Textes : spécifications de BDTopo

Page 7: Construction automatique d'ontologies à partir de spécifications de bases de données

7IC 2009

Construction d'ontologie à partir de spécifications de BD

Textes : spécifications de BDTopo

Information contenue dans les champs définition, modélisation géométrique, etc.

Page 8: Construction automatique d'ontologies à partir de spécifications de bases de données

8IC 2009

Construction d'ontologie à partir de spécifications de BD

Méthode

� Prendre en compte la structure hiérarchique du texte / XML schema� Concepts� Relations entre concepts� Noyau d’ontologie

� Écriture de règles d’extraction de concepts et de relations

� Exploiter le texte rédigé� Nouveaux concepts � Nouvelles relations � Enrichir le noyau d’ontologie

� Définition de patrons lexico-syntaxiques

� Combiner les deux approches au sein d’un même logiciel� Plate-forme GATE

Page 9: Construction automatique d'ontologies à partir de spécifications de bases de données

9IC 2009

Construction d'ontologie à partir de spécifications de BD

Méthode : 1 – exploiter les spécifications XML

Page 10: Construction automatique d'ontologies à partir de spécifications de bases de données

10IC 2009

Construction d'ontologie à partir de spécifications de BD

� Identification de relations� Identité

- Chef-lieu de canton : chef-lieu de canton

� Synonymie- Cascade : Chute d’eau

- Terrain de sport : équipement sportif de plein air

� Relations lexicales :partie_de, ensemble_de, relations spatiales …

Méthode : 2- exploiter le texte en LN

(({Token.lemme== "portion"}|{Token.lemme== "partie"}|…)({Token.lemme== "de"}) ({NounChunk}) :annot

) - - > annot.ANNOT = {kind="Partie", rule="Rule1"}

<classe><nom_classe> Tronçon de route </nom_classe><définition> Portion dePortion dePortion dePortion de voie de communication destindestindestindestinée aux automobilistese aux automobilistese aux automobilistese aux automobilistes >/definition></classe>

Page 11: Construction automatique d'ontologies à partir de spécifications de bases de données

11IC 2009

Construction d'ontologie à partir de spécifications de BD

Mise en œuvre à l’aide de GATESpec.

S1

GATERègle 1

Spec. S1

Onto. O1

GATEPatrons

Spec. S2 GATE

Règles 2

Onto. O2

Règle1 : règle de création de concepts et de relations sémantiques à partir du XML schema

Patrons : patrons lexico-syntaxiques

Page 12: Construction automatique d'ontologies à partir de spécifications de bases de données

12IC 2009

Construction d'ontologie à partir de spécifications de BD

�Concepts�Relation hiérarchique est-un

�Relation sémantique a-pour-Franchissement

�Propriété a-pour-Département-gestionnaire

Résultat : Premier noyau d’ontologie

Page 13: Construction automatique d'ontologies à partir de spécifications de bases de données

13IC 2009

Construction d'ontologie à partir de spécifications de BD

Résultat : ontologie enrichie

�Relation sémantique partie-de

�Propriété destinée aux automobilistes

Page 14: Construction automatique d'ontologies à partir de spécifications de bases de données

14IC 2009

Construction d'ontologie à partir de spécifications de BD

Évaluation : ontologie disponibleComparaison avec une ontologie COGIT (F.Laurens)

�Exploitation de la structure visuelle des documents de spécification

�Concepts introduits par l’expert

� Réarrangement des concepts

Page 15: Construction automatique d'ontologies à partir de spécifications de bases de données

15IC 2009

Construction d'ontologie à partir de spécifications de BD

Évaluation : Comparaison des ontologies

COGIT IRIT

Page 16: Construction automatique d'ontologies à partir de spécifications de bases de données

16IC 2009

Construction d'ontologie à partir de spécifications de BD

Non superviséSuperviséMode de construction

ouinonRelations conceptuelles autres

ouinonRelation de méronymie

ouinonPropriétés

ouiouiRelation hiérarchique "est-un "

66Profondeur

1251615Nombre de concepts

Onto_IRITOnto_COGIT

Évaluation : Comparaison des ontologies

Page 17: Construction automatique d'ontologies à partir de spécifications de bases de données

17IC 2009

Construction d'ontologie à partir de spécifications de BD

1) Hiérarchie entre concepts

Classement = Classement = Classement = Classement = « Autre classement Autre classement Autre classement Autre classement »DDDDéfinition finition finition finition : Route qui ne fait partie ni du réseau autoroutier, ni du réseau national, ni du réseau départemental (voir ci-dessus).Regroupement Regroupement Regroupement Regroupement : Voies goudronnées (voies communales, chemins ruraux ou voies privées) | Rues | Rues piétonnes

Évaluation : incohérences liées aux spécifications

Page 18: Construction automatique d'ontologies à partir de spécifications de bases de données

18IC 2009

Construction d'ontologie à partir de spécifications de BD

2) Nature des relations conceptuelles

Voies de Communication

est-un

(domaine)

(classe)

Évaluation : incohérences liées aux spécifications

Page 19: Construction automatique d'ontologies à partir de spécifications de bases de données

19IC 2009

Construction d'ontologie à partir de spécifications de BD

Conclusion

� Extraction d’ontologie à partir d’élémentscomplémentaires des textes� Structure XML (contexte très favorable)� Contenu rédigé� (mise en forme : énumérations, listes …)

� Uniformité de traitement (GATE)� Règles Jape� Patrons

� Qualité de l’ontologie� Traces sur l’origine des concepts et relations� Riche en relations autres que hiérarchiques� Exhaustive, reflet fidèle des spécifications

Page 20: Construction automatique d'ontologies à partir de spécifications de bases de données

20IC 2009

Construction d'ontologie à partir de spécifications de BD

� Enrichir la chaîne de traitement� Utiliser les résultats d’un extracteur de termes� Aider au choix terme / concept� Définir de nouveaux patrons (termes plus spécifiques,

identification de relation)

� Développer une interface de validation / correction humaine� Quand faire intervenir l’expert ?

� Au moment de détecter les incohérences et corriger chaque ontologie individuelle

� au fur et à mesure de l’alignement � à la fin de l’alignement

Perspectives