TOTh’2014, 12/06/2014

50
Méthodologie d’ingénierie des connaissances pour la représentation des définitions lexicographiques dans le cadre de la théorie Sens-Texte TOTh’2014, 12/06/2014 Maxime Lefrançois, Fabien Gandon, Alain Giboin Inria

description

TOTh’2014, 12/06/2014. Méthodologie d’ingénierie des connaissances pour la représentation des définitions lexicographiques dans le cadre de la théorie Sens-Texte. Maxime Lefrançois, Fabien Gandon , Alain Giboin Inria. Pourquoi étudier la Théorie Sens-Texte ?. - PowerPoint PPT Presentation

Transcript of TOTh’2014, 12/06/2014

Page 1: TOTh’2014, 12/06/2014

Méthodologie d’ingénierie des connaissances pour la représentation des définitions

lexicographiques dans le cadre de la théorie Sens-Texte

TOTh’2014, 12/06/2014

Maxime Lefrançois, Fabien Gandon, Alain GiboinInria

Page 2: TOTh’2014, 12/06/2014

2

Richesse de description

• Besoin de formalisation• Besoin de plus de

couverture• Besoin pour le TALN

TOTh'2014

Approches en sémantique lexicale1. Sémantique décompositionnelle2. Sémantique componentielle3. Sémantique relationnelle

Pourquoi étudier la Théorie Sens-Texte ?

Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 3: TOTh’2014, 12/06/2014

3

- Différents niveaux de représentation- Des règles de transformation entre les niveaux

- Le lexique tient une place centraleLe Dictionnaire Explicatif et Combinatoire (DEC)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Postulats de base

Page 4: TOTh’2014, 12/06/2014

4

Informatisation du DEC et DEC informatisé

ex: éditeur DECID (Sérasset, 1997)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 5: TOTh’2014, 12/06/2014

5

Ingénierie des connaissances

Informatisation du DEC et DEC informatisé

représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• recherche intelligente d’information• mise à jour et vérification

automatique• déduction logique

▫ paraphrasage▫ déduction du premier ordre

Page 6: TOTh’2014, 12/06/2014

6TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Quel formalisme de représentation des connaissances serait adapté à la représentation

des connaissances sémantiques lexicales de la Théorie Sens-Texte ?

« Formalisation de la conceptualisation d’un domaine »

1. La conceptualisation est-elle adaptée à une formalisation ?2. Quel formalisme est adapté à cette conceptualisation ?3. Comment peut-on opérationnaliser ce formalisme ?

Question de recherche et méthodologie

Page 7: TOTh’2014, 12/06/2014

7

Plan de la présentation

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

1. La conceptualisation est-elle adaptée à une formalisation ?

3. Comment peut-on opérationnaliser ce formalisme ?

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 8: TOTh’2014, 12/06/2014

8TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a. Conceptualisation des prédicats linguistiques

1.b.Conceptualisation des représentations linguistiques et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

1.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 9: TOTh’2014, 12/06/2014

9

Exemple d’extension de conceptualisation

Unités linguistiques&

Unités linguistiques

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Langage :

Usage :

Types d’

(instances d’)

Page 10: TOTh’2014, 12/06/2014

10

Introduction au DEC

principal sujet d’étude des linguistes de la Théorie Sens-Texte

• zone phonologique• zone morphologique• zone sémantique• zone de combinatoire• zone de stylistique, • zone d’exemple, • zone phraséologique, • zone de nota bene

4 volumes papier= environ 500 entrées seulement

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 11: TOTh’2014, 12/06/2014

11

Zone sémantique du DEC> les définitions lexicographiques

• Travaux de conceptualisation existant▫ choix des composantes selon les catégories d’unités lexicales

(ex: sentiments)

▫ la structuration est importante pour le TAL (Wanner, MTT’ 2003)

▫ composantes suggérées par des étiquettes sémantiques▫ symboles de PosASém choisies dans un petit ensemble (à la

FrameNet)▫ structuration en XML (projet Definiens)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 12: TOTh’2014, 12/06/2014

12

Zone sémantique du DEC> les définitions lexicographiques

• Conceptualisation espérée (dans la littérature):

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Degré de formalisation non atteint aujourd’hui

Page 13: TOTh’2014, 12/06/2014

13

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique

Positions actancielles

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 14: TOTh’2014, 12/06/2014

14

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique

Positions actancielles

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 15: TOTh’2014, 12/06/2014

15

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique▫ Structure actancielle

Extension de la conceptualisation

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

=

Page 16: TOTh’2014, 12/06/2014

16

• Type d’unité lexicale▫ Structure actancielle sémantique

Prédicats linguistiques

Positions actantielles sémantiques:= Les participants de la situation linguistique dénotée par Lqui ont une position privilégiées auprès de L dans les phrases

+ critères linguistiques !

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Type d’unité sémantique▫ Structure actancielle=

Page 17: TOTh’2014, 12/06/2014

17

• Type d’unité lexicale▫ Structure actancielle sémantique

Prédicats linguistiques

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Type d’unité sémantique▫ Structure actancielle=

Page 18: TOTh’2014, 12/06/2014

18TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Héritage du sens et spécialisation

des structures actancielles ?

Page 19: TOTh’2014, 12/06/2014

19

•(outil)

• PosA 1 – personne qui utilise l’outil• PosA 2 – une activité ou une profession

• (ciseaux)

• PosA 1 – personne qui utilise l’outil• PosA 2 – l’objet à couper

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Héritage du sens et spécialisation

des structures actancielles ?

contre-exemple 1.

Page 20: TOTh’2014, 12/06/2014

20

•(ustensile)

• PosA 1 – personne qui utilise l’ustensile• PosA 2 – une activité

• (bouilloire)

• PosA 1 – personne qui utilise l’outil• PosA 2

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

contre-exemple 2.

Héritage du sens et spécialisation

des structures actancielles ?

Page 21: TOTh’2014, 12/06/2014

21TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Le niveau Sémantique Profond

Page 22: TOTh’2014, 12/06/2014

22

Le niveau Sémantique Profond

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

SémP SémS

• introduction d’une notation /outil\

• définition de la structure actancielle sémantique profonde▫ choix des Symboles d’Actants: des rôles sémantiques lexicalisés▫ introduction des positions actancielles interdites

Héritage du sens et spécialisation

des structures actancielles

Page 23: TOTh’2014, 12/06/2014

23TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b. Conceptualisation des représentations

linguistiques et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

1.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 24: TOTh’2014, 12/06/2014

24

Définitions lexicographiques

• Application au projet RELIEF (Lux-Pogodalla et Polguère, WoLeR’2009)

?

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 25: TOTh’2014, 12/06/2014

25

Repositionnement> 1. au niveau sémantique profond

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 26: TOTh’2014, 12/06/2014

26

Repositionnement> 2. au niveau du dictionnaire

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 27: TOTh’2014, 12/06/2014

27

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 28: TOTh’2014, 12/06/2014

28

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 29: TOTh’2014, 12/06/2014

29

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 30: TOTh’2014, 12/06/2014

30

Offre une première base de discussion essentielleConfirme les attentes des lexicographes pour un tel outilPermet d’identifier des directions d’amélioration possible

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 31: TOTh’2014, 12/06/2014

31TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

2.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a. Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 32: TOTh’2014, 12/06/2014

32TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Critères de choix de (Gruber, 1995)▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique

Formalismes candidats

65Grammaires de dépendance

Théorie Linguistique Sens-Texte

Graphes Conceptuels

Web Sémantique& Logiques de description

Page 33: TOTh’2014, 12/06/2014

33TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Le Formalisme des Graphes d’Unités•un formalisme à base de graphes•inspiré des Graphes Conceptuels•construit pour la théorie Sens-Texte

Page 34: TOTh’2014, 12/06/2014

34TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

2.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b. Construction du formalisme des Graphes

d’Unités

Page 35: TOTh’2014, 12/06/2014

35TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Hiérarchie des types d’unités> Objectif • Un type d’unité hérite la structure actancielle de ses parents• et peut la spécialiser

▫ PosA optionnelle obligatoire▫ PosA optionnelle interdite▫ spécialisation des signatures

Page 36: TOTh’2014, 12/06/2014

36TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Hiérarchie des types d’unités> Solution: types primitifs d’unités• Pour un symbole d’actant s

▫ le radix de s introduit une PosA s▫ l’obligat de s rend la PosA s obligatoire▫ le prohibet de s rend la PosA s interdite

hiérarchie des types primitifs = superposition intriquée de telles structures

Page 37: TOTh’2014, 12/06/2014

37TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Graphes d’Unités

Page 38: TOTh’2014, 12/06/2014

38TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Règles de graphes d’unités

• une hypothèse• une conclusion• des nœuds frontière

Page 39: TOTh’2014, 12/06/2014

39TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Définitions de types d’unités= deux règles contraposées

Page 40: TOTh’2014, 12/06/2014

40TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a. Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

3.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 41: TOTh’2014, 12/06/2014

41

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Objectifs du raisonnement• Critères de choix de (Gruber, 1995)

▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique?

Page 42: TOTh’2014, 12/06/2014

42

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Sémantique logique

Théorie des modèles & Algèbre relationnelle

G implique H =pour tout modèle M qui satisfait G, il existe un modèle qui satisfait H

Page 43: TOTh’2014, 12/06/2014

43

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Déduction logique

Règles d’inférence & Dérivation logique

H peut être déduit de G =H peut être projeté sur un graphe d’unité dérivé de G

Page 44: TOTh’2014, 12/06/2014

44

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Décidabilité de la déduction logique

• Condition suffisante: Expansion finie

▫ des conditions d’acyclicité sur la hiérarchie des types d’unités sur les définitions lexicographiques

▫ Les lexicographes de la Théorie Sens-Texte s’imposaient déjà ces conditions par intuition

Page 45: TOTh’2014, 12/06/2014

45TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b. Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

3.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

Page 46: TOTh’2014, 12/06/2014

46

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Standards du web sémantique

Page 47: TOTh’2014, 12/06/2014

47

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Modèle: OWL 2 RL,

Alignement avec

ontolex

deux modèles différents, mais interopérables

Page 48: TOTh’2014, 12/06/2014

48

Ingénierie des connaissances

Conclusions

représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...

Théorie Sens-Texte

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 49: TOTh’2014, 12/06/2014

49

Conclusions

Conceptualisation Représentation Opérationnalisatio

n

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Page 50: TOTh’2014, 12/06/2014

50

Choisir le formalisme Le Peupler L’Appliquer

t

Conceptualisation Représentation Opérationnalisatio

n

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Perspectives