TOTh’2014, 12/06/2014

Post on 01-Jan-2016

33 views 3 download

description

TOTh’2014, 12/06/2014. Méthodologie d’ingénierie des connaissances pour la représentation des définitions lexicographiques dans le cadre de la théorie Sens-Texte. Maxime Lefrançois, Fabien Gandon , Alain Giboin Inria. Pourquoi étudier la Théorie Sens-Texte ?. - PowerPoint PPT Presentation

Transcript of TOTh’2014, 12/06/2014

Méthodologie d’ingénierie des connaissances pour la représentation des définitions

lexicographiques dans le cadre de la théorie Sens-Texte

TOTh’2014, 12/06/2014

Maxime Lefrançois, Fabien Gandon, Alain GiboinInria

2

Richesse de description

• Besoin de formalisation• Besoin de plus de

couverture• Besoin pour le TALN

TOTh'2014

Approches en sémantique lexicale1. Sémantique décompositionnelle2. Sémantique componentielle3. Sémantique relationnelle

Pourquoi étudier la Théorie Sens-Texte ?

Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

3

- Différents niveaux de représentation- Des règles de transformation entre les niveaux

- Le lexique tient une place centraleLe Dictionnaire Explicatif et Combinatoire (DEC)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Postulats de base

4

Informatisation du DEC et DEC informatisé

ex: éditeur DECID (Sérasset, 1997)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

5

Ingénierie des connaissances

Informatisation du DEC et DEC informatisé

représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• recherche intelligente d’information• mise à jour et vérification

automatique• déduction logique

▫ paraphrasage▫ déduction du premier ordre

6TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Quel formalisme de représentation des connaissances serait adapté à la représentation

des connaissances sémantiques lexicales de la Théorie Sens-Texte ?

« Formalisation de la conceptualisation d’un domaine »

1. La conceptualisation est-elle adaptée à une formalisation ?2. Quel formalisme est adapté à cette conceptualisation ?3. Comment peut-on opérationnaliser ce formalisme ?

Question de recherche et méthodologie

7

Plan de la présentation

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

1. La conceptualisation est-elle adaptée à une formalisation ?

3. Comment peut-on opérationnaliser ce formalisme ?

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

8TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a. Conceptualisation des prédicats linguistiques

1.b.Conceptualisation des représentations linguistiques et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

1.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

9

Exemple d’extension de conceptualisation

Unités linguistiques&

Unités linguistiques

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Langage :

Usage :

Types d’

(instances d’)

10

Introduction au DEC

principal sujet d’étude des linguistes de la Théorie Sens-Texte

• zone phonologique• zone morphologique• zone sémantique• zone de combinatoire• zone de stylistique, • zone d’exemple, • zone phraséologique, • zone de nota bene

4 volumes papier= environ 500 entrées seulement

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

11

Zone sémantique du DEC> les définitions lexicographiques

• Travaux de conceptualisation existant▫ choix des composantes selon les catégories d’unités lexicales

(ex: sentiments)

▫ la structuration est importante pour le TAL (Wanner, MTT’ 2003)

▫ composantes suggérées par des étiquettes sémantiques▫ symboles de PosASém choisies dans un petit ensemble (à la

FrameNet)▫ structuration en XML (projet Definiens)

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

12

Zone sémantique du DEC> les définitions lexicographiques

• Conceptualisation espérée (dans la littérature):

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Degré de formalisation non atteint aujourd’hui

13

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique

Positions actancielles

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

14

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique

Positions actancielles

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

15

Prédicats linguistiques

• Type d’unité lexicale▫ Structure actancielle sémantique

• Type d’unité sémantique▫ Structure actancielle

Extension de la conceptualisation

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

=

16

• Type d’unité lexicale▫ Structure actancielle sémantique

Prédicats linguistiques

Positions actantielles sémantiques:= Les participants de la situation linguistique dénotée par Lqui ont une position privilégiées auprès de L dans les phrases

+ critères linguistiques !

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Type d’unité sémantique▫ Structure actancielle=

17

• Type d’unité lexicale▫ Structure actancielle sémantique

Prédicats linguistiques

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Type d’unité sémantique▫ Structure actancielle=

18TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Héritage du sens et spécialisation

des structures actancielles ?

19

•(outil)

• PosA 1 – personne qui utilise l’outil• PosA 2 – une activité ou une profession

• (ciseaux)

• PosA 1 – personne qui utilise l’outil• PosA 2 – l’objet à couper

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Héritage du sens et spécialisation

des structures actancielles ?

contre-exemple 1.

20

•(ustensile)

• PosA 1 – personne qui utilise l’ustensile• PosA 2 – une activité

• (bouilloire)

• PosA 1 – personne qui utilise l’outil• PosA 2

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

contre-exemple 2.

Héritage du sens et spécialisation

des structures actancielles ?

21TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Le niveau Sémantique Profond

22

Le niveau Sémantique Profond

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

SémP SémS

• introduction d’une notation /outil\

• définition de la structure actancielle sémantique profonde▫ choix des Symboles d’Actants: des rôles sémantiques lexicalisés▫ introduction des positions actancielles interdites

Héritage du sens et spécialisation

des structures actancielles

23TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b. Conceptualisation des représentations

linguistiques et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

1.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

24

Définitions lexicographiques

• Application au projet RELIEF (Lux-Pogodalla et Polguère, WoLeR’2009)

?

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

25

Repositionnement> 1. au niveau sémantique profond

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

26

Repositionnement> 2. au niveau du dictionnaire

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

27

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

28

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

29

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

30

Offre une première base de discussion essentielleConfirme les attentes des lexicographes pour un tel outilPermet d’identifier des directions d’amélioration possible

Prototype d’éditeur de définitions lexicographiques avec

la conceptualisation étendue

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

31TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

2.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a. Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

32TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

• Critères de choix de (Gruber, 1995)▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique

Formalismes candidats

65Grammaires de dépendance

Théorie Linguistique Sens-Texte

Graphes Conceptuels

Web Sémantique& Logiques de description

33TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Le Formalisme des Graphes d’Unités•un formalisme à base de graphes•inspiré des Graphes Conceptuels•construit pour la théorie Sens-Texte

34TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

2.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b. Construction du formalisme des Graphes

d’Unités

35TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Hiérarchie des types d’unités> Objectif • Un type d’unité hérite la structure actancielle de ses parents• et peut la spécialiser

▫ PosA optionnelle obligatoire▫ PosA optionnelle interdite▫ spécialisation des signatures

36TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Hiérarchie des types d’unités> Solution: types primitifs d’unités• Pour un symbole d’actant s

▫ le radix de s introduit une PosA s▫ l’obligat de s rend la PosA s obligatoire▫ le prohibet de s rend la PosA s interdite

hiérarchie des types primitifs = superposition intriquée de telles structures

37TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Graphes d’Unités

38TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Règles de graphes d’unités

• une hypothèse• une conclusion• des nœuds frontière

39TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Définitions de types d’unités= deux règles contraposées

40TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a. Etude du raisonnement logique3.b.Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

3.a.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

41

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Objectifs du raisonnement• Critères de choix de (Gruber, 1995)

▫ clarté ▫ cohérence▫ extensibilité▫ minimalité de la déformation d’encodage▫ minimalité de l’engagement ontologique?

42

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Sémantique logique

Théorie des modèles & Algèbre relationnelle

G implique H =pour tout modèle M qui satisfait G, il existe un modèle qui satisfait H

43

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Déduction logique

Règles d’inférence & Dérivation logique

H peut être déduit de G =H peut être projeté sur un graphe d’unité dérivé de G

44

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Décidabilité de la déduction logique

• Condition suffisante: Expansion finie

▫ des conditions d’acyclicité sur la hiérarchie des types d’unités sur les définitions lexicographiques

▫ Les lexicographes de la Théorie Sens-Texte s’imposaient déjà ces conditions par intuition

45TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

t

1.a.Conceptualisation des prédicats linguistiques1.b.Conceptualisation des représentations linguistiques

et des définitions lexicographiques

1. La conceptualisation est-elle adaptée à une formalisation ?

3.a.Etude du raisonnement logique3.b. Opérationnalisation sur le web des données

3. Comment peut-on opérationnaliser ce formalisme ?

3.b.

2. Quel formalisme est adapté à cette conceptualisation ?

2.a.Formalismes existants2.b.Construction du formalisme des Graphes d’Unités

46

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Standards du web sémantique

47

TOTh'2014Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Modèle: OWL 2 RL,

Alignement avec

ontolex

deux modèles différents, mais interopérables

48

Ingénierie des connaissances

Conclusions

représenter, manipuler, échanger, interroger, raisonner avec les connaissances,...

Théorie Sens-Texte

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

49

Conclusions

Conceptualisation Représentation Opérationnalisatio

n

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

50

Choisir le formalisme Le Peupler L’Appliquer

t

Conceptualisation Représentation Opérationnalisatio

n

t

TOTh'2014 Lefrançois, Gandon, Giboin – Méthodologie d’ingénierie des connaissances pour la TST

Perspectives