10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT...

40
10/12/2001 Memodata/CRISCO (CNRS) 1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco

Transcript of 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT...

Page 1: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 1

Utilité et Utilisations du Sémiographe

Dominique DUTOITMemodata/Crisco

Page 2: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 2

Utilité du Sémiographe

Utilité du Sémiographe

(0/5)

Utilité du Sémiographe

(0/5)

Page 3: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 3

Animer Le Dictionnaire Intégral (LDI) : lui faire produire au bon moment les bons sens ou les bons textes.LDI : toutes les façons de voir le lexique, dont la façon qui représentera le texte t selon une dimension(s) d d ’un besoin b.

Utilité du SémiographeUtilité du Sémiographe

(1/5)

Utilité du Sémiographe

(1/5)

Page 4: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 4

LDI est (1) :

• universaliste : toutes les significations sont déclarées ainsi que leurs expressions.

• aprioriste : tous les effets potentiels des significations sont déclarés.

U(avocat) : personne (Classe) qui … Droit (thème)

A(avocat) : fct(U (personne), U(qui … Droit))

-- agent, animé… -- monde(s) du Droit

Utilité du Sémiographe

LDI (2/5)

Utilité du Sémiographe

LDI (2/5)

Page 5: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 5

LDI est (2) :• De forme : graphe unique acyclique orienté fait

de mondes dont chaque monde comprend des éléments de nature, prédication, usage, ...

• De fond :

- un ensemble de micro-systèmes en interrelations (TST)

- un ensemble de macro-système en interrelations (sémantique componentielle)

- un ensemble de classes en relation de syntaxe

Utilité du Sémiographe

LDI (3/5)

Utilité du Sémiographe

LDI (3/5)

Page 6: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 6

Animer LDI (1)

• Transformer les tissus de LDI en organes et voies de communication

• Adapter ces organes et voies aux tâches linguistiques

• Permettre à LDI de se voir en mouvement et de s ’adapter au contexte

Exemples

- fournir une étude différentielle de samouraï selon nippon ou chevalier ; de nippon selon samouraï ou chevalier ; de chevalier selon samouraï ou nippon...

Utilité du Sémiographe

(4/5)

Utilité du Sémiographe

(4/5)

Page 7: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 7

Animer LDI (1 : ex)

• Soit le texte : samouraï … … nippon … … Dans ce texte samouraï est le samouraï japonais selon le prédicat Japon dans le corrélat nippon. Mais il reste à noter que :– La classe \personne, les prédicats (une fois \personne retiré) \

guerrier, \noble, \portant une armure (…) sont absents.

– Le grammème \nom est absent (si pas de dét. Ou autre).

• Soit le texte : samouraï … … chevalier … … Dans ce texte samouraï est le samouraï selon les classes \guerrier, \noble, \ce qui est cuirassé, \nom dans le corrélat chevalier. Mais il reste à noter que :– du Japon est absent.

Utilité du Sémiographe

(5/5)

Utilité du Sémiographe

(5/5)

Page 8: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 8

Faire comprendre LDI (2)

• Comment structurer un dictionnaire intégral?• Comment s ’assurer que LDI progresse?• Comment rendre pensable que LDI se construira

un jour tout seul?

ET …..…Memodata étant une entreprise……...• Comment réaliser rapidement un grand nombre

d ’applications linguistiques efficaces en utilisant l ’environnement :

DICTIONNAIRE INTEGRAL - SEMIOGRAPHE

SenseAgentSenseAgent

Utilité du Sémiographe

(5/5)

Utilité du Sémiographe

(5/5)

Page 9: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 9

Utilisations du Sémiographe (démos)

Utilisation du Sémiographe

(0/4)

Utilisation du Sémiographe

(0/4)

Page 10: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 10

Utilisation du Sémiographe

(0/4)

Utilisation du Sémiographe

(0/4)

Page 11: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 11

Conditions de la démo•Pas de (re)compilation (~ 15’) --> Pas de test sur - la sensibilité du système ou sur sa spécialisation

•Pas d’apprentissage (hors domaine)

•Pas de grammaire (fonctions sémantiques seules)

•Développement : pas de demande d’explication en intention (traits sémantiques, sèmes selon Pottier) des résultats

Ressources utilisées (démo Atala)

Fonctions lexicales TST Non Concepts isotopiques OuiConnaissances CYC Non

Utilisation du Sémiographe

(1/10)

Utilisation du Sémiographe

(1/10)

Page 12: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 12

Les fonctions de mots

WN DI M1) Adjectifs et Satellite 28749 20302

M2) Adverbes 6201 3513

M3) Affixe 0 409

M4) Alphabet 0 67

M5) Chiffre ex : 2 0 17

M6) Conjonction 0 305

M7) Déterminant 0 168

M8) Divers 0 227

M9) Noms 107424 84073

M10) Noms propres selon 10 cat. 0 55478

M11) Ponctuation 0 19

M12) Phrases 0 546

M13) Préposition 0 635

M14) Pronom 0 311

M15) Symbole 0 166

M16) Verbe 25761 22206

M17) Total 168135 188442

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

•20 API hyper/hypo, syn, ant, géo, lemme, trad, exp...

GoGo

Page 13: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 13

hyponymes de monnaie

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Temps de traitement (en milliseconde)

Nombre de réponses

(selon la profondeurmaximale)

L’hyperonyme

Page 14: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 14

Hyponymes de personne

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Trop de réponsespour l’envoià l’afficheur

Page 15: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 15

Hyperonymes de yen

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Les relations utilisées

L’affichage des numérosne suffit pas pour traduire la profondeur

du graphe.

Page 16: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 16

Synonymes de monnaie

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Forme résuméeavec perte d’info.dans l’affichage

des niveaux de langue en jeu

Page 17: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 17

Lieu contenu dans Cameroun

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

La nature des lieuxn’est pas affichée.Parfois on pourra

la déduire de la relation.

Le mieux resterait de demander le type

de lieu.

Page 18: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 18

Lieu contenant Cameroun

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Dans une discussionentre un camerounais

et un Alien, l’Univers seraitdynamiquement

utile.L’intérêt des traits

est bien sûr unphénomène strictement dynamique (contextuel,

pragmatique,…)

Page 19: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 19

Dérivé sémantique de rêver

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Fonction lexicale de fonction lexicale de fonction lexicale de

...

Dérivation sémantique et non

morphologique

Page 20: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 20

Lemmatisation de are (anglais)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGoSix langues

disponibles au plan desmodèles

En anglais, are estaussi un nom.

Page 21: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 21

Conjugaison de montare (italien)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGoChoix d’un modèle

(tr/int)

Page 22: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 22

“Brother” de monter

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Non synonymes (ils sont sémantiquement

différents), certains verbes admettent des

cas de substitution avecmonter selon des traits

de sens précis.

Page 23: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 23

Expansion de monter

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/10)

Utilisation du Sémiographe

(2/10)

GoGo

Un script permetl’enchainement des

diversesfonctions de mots.

Comme pour l’alcool, attention aux abus!

Page 24: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 24

Les fonctions sémantiques de phrase

• Des traitements de base– La désambiguïsation lexico-sémantique

(forme )– La réduction lexicale ( forme N)– Extraction sémique ( forme )

Utilisation du Sémiographe

(3/10)

Utilisation du Sémiographe

(3/10)

Page 25: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 25

La WSD : forme en information sur le sens d’un énoncé

probabilité P de résolution : 1/80 < P < 1/36)

L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant un parachute

probabilité P de résolution : 1/30982 < P < 1/900)

Utilisation du Sémiographe

(4/10)

Utilisation du Sémiographe

(4/10)

Page 26: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 26

distance de monter à voitureUtilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(4/10)

Utilisation du Sémiographe

(4/10)

GoGo

Sur cet exemple, le traitsémantique prendre place

dans un véhicule serasélectionné.

Par conséquence, ilsélectionnera le bon sens

de monter.Réciproquement,plusieurs sens de

voiture seront sélectionnés.

Page 27: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 27

Réduction lexicale, dictionnaire à l’envers, forme en N… : différents noms pour un même principe… étalon de nos mesure!

Passer d’une expression comportant plusieurs mots à une expression comportant moins de mots.

Monnaie du Japon = yen

Monnaie de Tokyo = yen

Monnaie de Hiro Hito = yen

Utilisation du Sémiographe

Forme N

Utilisation du Sémiographe

Forme N Forme N

Page 28: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 28

Forme N (suite)

La réduction lexicale est une opération :

Texte-->sens-->texte : le texte généré reflète les significations calculées du texte de départ.

Dans les cas simples, elle dessine une forme en N :

monnaie

Gen de

yen

Isotope Japon

Japon

Utilisation du Sémiographe

Forme N (suite)

Utilisation du Sémiographe

Forme N (suite)

Page 29: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 29

Forme N (suite)

Dans des cas plus compliqués, elle dessine une forme en “usine” :Seuls ceux qui voient l’avenir dans les sources prédisent convenablement le futur.

P(ceux) = 1/10000

ceux

Gen de

???

Isotope divination

Voir l’avenir

Isotope : source

source

qui

Utilisation du Sémiographe

Forme N (suite)

Utilisation du Sémiographe

Forme N (suite)

Page 30: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 30

N de personne qui répare et vend des voituresUtilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(2/5)

Utilisation du Sémiographe

(4/10)

Utilisation du Sémiographe

(4/10)

GoGo

Les dix mille personnes humaines

du dictionnaire sont classées selon

ce que perçoit le système dela question. La fonction peut

être de fonctionnement très fin et précis pour des

domaines limités.Ici, elle fonctionne pour

les 200.000 objets duDictionnaire.

Page 31: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 31

forme : extraction des traits contextuelsde différence et de ressemblance.Depuis : samouraï Vers : chevalier

Utilisation du Sémiographe

Forme (5/10)

Utilisation du Sémiographe

Forme (5/10)

Classème (contextuel)

Sémantèmes (contextuel)

Symétrie (ressemblance)

.

Dissymétrie (dissemblance)

Dissymétrie (dissemblance)

N. (grammème)

\Personnequi fait la guerre

Qui porte une armureQui est du Japon

Qui est noble

Page 32: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

Les fonctions de texte

Utilisation du Sémiographe

Forme (6/10)

Utilisation du Sémiographe

Forme (6/10)

Page 33: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 33

Le résumé lexical d’un texte• Principe : un texte traitant d’un sujet active

abondamment tous les isotopes de ce sujetbillard : [billard thème] [jouer thème] [adresse thème] [gagner thème] [salle thème]…

• Algorithme : activation d’isotopes, proximité

• Usage : indexation et filtrage• Résultats : apporte un plus, très bons

Utilisation du Sémiographe

(7/10)

Utilisation du Sémiographe

(7/10)

Page 34: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 34

Le routage, nomenclature...

• Principe : un texte doit être dirigé automatiquement vers une boîte à lettres comme :

[guerre du kosovo] : guerre;kosovo

• Algorithme : activation ou proximité

• Résultats : peut être très bon pour les sujets référentiels, préférer match sur classe enrichi des brothers pour les structures actancielles

Utilisation du Sémiographe

(8/10)

Utilisation du Sémiographe

(8/10)

Page 35: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 35

Signature sémantique

• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.

Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte

• Résultats : utile pour la recherche, ralenti l’indexation.

Utilisation du Sémiographe

(9/10)

Utilisation du Sémiographe

(9/10)

Page 36: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 36

Comparaison de deux textes

• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.

Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte

• Résultats : utile pour la recherche, ralenti l’indexation.

Utilisation du Sémiographe

(10/10)

Utilisation du Sémiographe

(10/10)

Page 37: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 37

Évolution du projet« Syntaxe Intégrale et Pragmatique Abstraite»

Page 38: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 38

•La pragmatique abstraite– Pourquoi la bonne réponse à Quelle est la couleur du

cheval blanc d’Henry IV ? est-elle toujours blanc?

•La syntaxe intégrale– Concevoir des espaces indépendants de représentation

des observations : indépendance des variables = clarté des concepts

– Inventer ou sélectionner des terminologies propres à chaque espace

– Concevoir les effets des projections en tant qu’application d’un espace sur l’autre.

Page 39: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 39 5

Turkish

güzellestirilecekti güzellestirilecekti güzelgüzel--lesles--tirtir --ilil--ecekecek--titi

(it) was going to be (it) was going to be bbeeautifi ed (autifi ed (iit was t was going to be caugoing to be caussed to aced to acqquiuirre beae beauuty)ty) ggüzelüzel –– beautybeauty --les les -- acacqquireuire --tirtir :: causativecausative --iil: passivel: passive --ecek: f utureecek: f uture --ti: pastti: past --0: 3rd Sg person0: 3rd Sg person 5

Turkish

güzellestirilecekti güzellestirilecekti güzelgüzel--lesles--tirtir --ilil--ecekecek--titi

(it) was going to be (it) was going to be bbeeautifi ed (autifi ed (iit was t was going to be caugoing to be caussed to aced to acqquiuirre beae beauuty)ty) ggüzelüzel –– beautybeauty --les les -- acacqquireuire --tirtir :: causativecausative --iil: passivel: passive --ecek: f utureecek: f uture --ti: pastti: past --0: 3rd Sg person0: 3rd Sg person

Page 40: 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT Memodata/Crisco.

10/12/2001 Memodata/CRISCO (CNRS) 40

•Syntaxe intégrale ou componentielle =• déclaration de choses potentiellement vraies pour

chaque espace (à définir)• Sélection automatique des “matches” sur chaque

espace par qqch comme le Sémiographe indépendamment de toute idée préconçue de stratégie unificatrice.

• Syntaxe à la fois analytique et générative (pas de processus)