10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT...
-
Upload
acelet-fort -
Category
Documents
-
view
106 -
download
1
Transcript of 10/12/2001Memodata/CRISCO (CNRS)1 Utilité et Utilisations du Sémiographe Dominique DUTOIT...
10/12/2001 Memodata/CRISCO (CNRS) 1
Utilité et Utilisations du Sémiographe
Dominique DUTOITMemodata/Crisco
10/12/2001 Memodata/CRISCO (CNRS) 2
Utilité du Sémiographe
Utilité du Sémiographe
(0/5)
Utilité du Sémiographe
(0/5)
10/12/2001 Memodata/CRISCO (CNRS) 3
Animer Le Dictionnaire Intégral (LDI) : lui faire produire au bon moment les bons sens ou les bons textes.LDI : toutes les façons de voir le lexique, dont la façon qui représentera le texte t selon une dimension(s) d d ’un besoin b.
Utilité du SémiographeUtilité du Sémiographe
(1/5)
Utilité du Sémiographe
(1/5)
10/12/2001 Memodata/CRISCO (CNRS) 4
LDI est (1) :
• universaliste : toutes les significations sont déclarées ainsi que leurs expressions.
• aprioriste : tous les effets potentiels des significations sont déclarés.
U(avocat) : personne (Classe) qui … Droit (thème)
A(avocat) : fct(U (personne), U(qui … Droit))
-- agent, animé… -- monde(s) du Droit
Utilité du Sémiographe
LDI (2/5)
Utilité du Sémiographe
LDI (2/5)
10/12/2001 Memodata/CRISCO (CNRS) 5
LDI est (2) :• De forme : graphe unique acyclique orienté fait
de mondes dont chaque monde comprend des éléments de nature, prédication, usage, ...
• De fond :
- un ensemble de micro-systèmes en interrelations (TST)
- un ensemble de macro-système en interrelations (sémantique componentielle)
- un ensemble de classes en relation de syntaxe
Utilité du Sémiographe
LDI (3/5)
Utilité du Sémiographe
LDI (3/5)
10/12/2001 Memodata/CRISCO (CNRS) 6
Animer LDI (1)
• Transformer les tissus de LDI en organes et voies de communication
• Adapter ces organes et voies aux tâches linguistiques
• Permettre à LDI de se voir en mouvement et de s ’adapter au contexte
Exemples
- fournir une étude différentielle de samouraï selon nippon ou chevalier ; de nippon selon samouraï ou chevalier ; de chevalier selon samouraï ou nippon...
Utilité du Sémiographe
(4/5)
Utilité du Sémiographe
(4/5)
10/12/2001 Memodata/CRISCO (CNRS) 7
Animer LDI (1 : ex)
• Soit le texte : samouraï … … nippon … … Dans ce texte samouraï est le samouraï japonais selon le prédicat Japon dans le corrélat nippon. Mais il reste à noter que :– La classe \personne, les prédicats (une fois \personne retiré) \
guerrier, \noble, \portant une armure (…) sont absents.
– Le grammème \nom est absent (si pas de dét. Ou autre).
• Soit le texte : samouraï … … chevalier … … Dans ce texte samouraï est le samouraï selon les classes \guerrier, \noble, \ce qui est cuirassé, \nom dans le corrélat chevalier. Mais il reste à noter que :– du Japon est absent.
Utilité du Sémiographe
(5/5)
Utilité du Sémiographe
(5/5)
10/12/2001 Memodata/CRISCO (CNRS) 8
Faire comprendre LDI (2)
• Comment structurer un dictionnaire intégral?• Comment s ’assurer que LDI progresse?• Comment rendre pensable que LDI se construira
un jour tout seul?
ET …..…Memodata étant une entreprise……...• Comment réaliser rapidement un grand nombre
d ’applications linguistiques efficaces en utilisant l ’environnement :
DICTIONNAIRE INTEGRAL - SEMIOGRAPHE
SenseAgentSenseAgent
Utilité du Sémiographe
(5/5)
Utilité du Sémiographe
(5/5)
10/12/2001 Memodata/CRISCO (CNRS) 9
Utilisations du Sémiographe (démos)
Utilisation du Sémiographe
(0/4)
Utilisation du Sémiographe
(0/4)
10/12/2001 Memodata/CRISCO (CNRS) 10
Utilisation du Sémiographe
(0/4)
Utilisation du Sémiographe
(0/4)
10/12/2001 Memodata/CRISCO (CNRS) 11
Conditions de la démo•Pas de (re)compilation (~ 15’) --> Pas de test sur - la sensibilité du système ou sur sa spécialisation
•Pas d’apprentissage (hors domaine)
•Pas de grammaire (fonctions sémantiques seules)
•Développement : pas de demande d’explication en intention (traits sémantiques, sèmes selon Pottier) des résultats
Ressources utilisées (démo Atala)
Fonctions lexicales TST Non Concepts isotopiques OuiConnaissances CYC Non
Utilisation du Sémiographe
(1/10)
Utilisation du Sémiographe
(1/10)
10/12/2001 Memodata/CRISCO (CNRS) 12
Les fonctions de mots
WN DI M1) Adjectifs et Satellite 28749 20302
M2) Adverbes 6201 3513
M3) Affixe 0 409
M4) Alphabet 0 67
M5) Chiffre ex : 2 0 17
M6) Conjonction 0 305
M7) Déterminant 0 168
M8) Divers 0 227
M9) Noms 107424 84073
M10) Noms propres selon 10 cat. 0 55478
M11) Ponctuation 0 19
M12) Phrases 0 546
M13) Préposition 0 635
M14) Pronom 0 311
M15) Symbole 0 166
M16) Verbe 25761 22206
M17) Total 168135 188442
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
•20 API hyper/hypo, syn, ant, géo, lemme, trad, exp...
GoGo
10/12/2001 Memodata/CRISCO (CNRS) 13
hyponymes de monnaie
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Temps de traitement (en milliseconde)
Nombre de réponses
(selon la profondeurmaximale)
L’hyperonyme
10/12/2001 Memodata/CRISCO (CNRS) 14
Hyponymes de personne
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Trop de réponsespour l’envoià l’afficheur
10/12/2001 Memodata/CRISCO (CNRS) 15
Hyperonymes de yen
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Les relations utilisées
L’affichage des numérosne suffit pas pour traduire la profondeur
du graphe.
10/12/2001 Memodata/CRISCO (CNRS) 16
Synonymes de monnaie
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Forme résuméeavec perte d’info.dans l’affichage
des niveaux de langue en jeu
10/12/2001 Memodata/CRISCO (CNRS) 17
Lieu contenu dans Cameroun
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
La nature des lieuxn’est pas affichée.Parfois on pourra
la déduire de la relation.
Le mieux resterait de demander le type
de lieu.
10/12/2001 Memodata/CRISCO (CNRS) 18
Lieu contenant Cameroun
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Dans une discussionentre un camerounais
et un Alien, l’Univers seraitdynamiquement
utile.L’intérêt des traits
est bien sûr unphénomène strictement dynamique (contextuel,
pragmatique,…)
10/12/2001 Memodata/CRISCO (CNRS) 19
Dérivé sémantique de rêver
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Fonction lexicale de fonction lexicale de fonction lexicale de
...
Dérivation sémantique et non
morphologique
10/12/2001 Memodata/CRISCO (CNRS) 20
Lemmatisation de are (anglais)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGoSix langues
disponibles au plan desmodèles
En anglais, are estaussi un nom.
10/12/2001 Memodata/CRISCO (CNRS) 21
Conjugaison de montare (italien)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGoChoix d’un modèle
(tr/int)
10/12/2001 Memodata/CRISCO (CNRS) 22
“Brother” de monter
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Non synonymes (ils sont sémantiquement
différents), certains verbes admettent des
cas de substitution avecmonter selon des traits
de sens précis.
10/12/2001 Memodata/CRISCO (CNRS) 23
Expansion de monter
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/10)
Utilisation du Sémiographe
(2/10)
GoGo
Un script permetl’enchainement des
diversesfonctions de mots.
Comme pour l’alcool, attention aux abus!
10/12/2001 Memodata/CRISCO (CNRS) 24
Les fonctions sémantiques de phrase
• Des traitements de base– La désambiguïsation lexico-sémantique
(forme )– La réduction lexicale ( forme N)– Extraction sémique ( forme )
Utilisation du Sémiographe
(3/10)
Utilisation du Sémiographe
(3/10)
10/12/2001 Memodata/CRISCO (CNRS) 25
La WSD : forme en information sur le sens d’un énoncé
probabilité P de résolution : 1/80 < P < 1/36)
L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant un parachute
probabilité P de résolution : 1/30982 < P < 1/900)
Utilisation du Sémiographe
(4/10)
Utilisation du Sémiographe
(4/10)
10/12/2001 Memodata/CRISCO (CNRS) 26
distance de monter à voitureUtilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(4/10)
Utilisation du Sémiographe
(4/10)
GoGo
Sur cet exemple, le traitsémantique prendre place
dans un véhicule serasélectionné.
Par conséquence, ilsélectionnera le bon sens
de monter.Réciproquement,plusieurs sens de
voiture seront sélectionnés.
10/12/2001 Memodata/CRISCO (CNRS) 27
Réduction lexicale, dictionnaire à l’envers, forme en N… : différents noms pour un même principe… étalon de nos mesure!
Passer d’une expression comportant plusieurs mots à une expression comportant moins de mots.
Monnaie du Japon = yen
Monnaie de Tokyo = yen
Monnaie de Hiro Hito = yen
Utilisation du Sémiographe
Forme N
Utilisation du Sémiographe
Forme N Forme N
10/12/2001 Memodata/CRISCO (CNRS) 28
Forme N (suite)
La réduction lexicale est une opération :
Texte-->sens-->texte : le texte généré reflète les significations calculées du texte de départ.
Dans les cas simples, elle dessine une forme en N :
monnaie
Gen de
yen
Isotope Japon
Japon
Utilisation du Sémiographe
Forme N (suite)
Utilisation du Sémiographe
Forme N (suite)
10/12/2001 Memodata/CRISCO (CNRS) 29
Forme N (suite)
Dans des cas plus compliqués, elle dessine une forme en “usine” :Seuls ceux qui voient l’avenir dans les sources prédisent convenablement le futur.
P(ceux) = 1/10000
ceux
Gen de
???
Isotope divination
Voir l’avenir
Isotope : source
source
qui
Utilisation du Sémiographe
Forme N (suite)
Utilisation du Sémiographe
Forme N (suite)
10/12/2001 Memodata/CRISCO (CNRS) 30
N de personne qui répare et vend des voituresUtilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(2/5)
Utilisation du Sémiographe
(4/10)
Utilisation du Sémiographe
(4/10)
GoGo
Les dix mille personnes humaines
du dictionnaire sont classées selon
ce que perçoit le système dela question. La fonction peut
être de fonctionnement très fin et précis pour des
domaines limités.Ici, elle fonctionne pour
les 200.000 objets duDictionnaire.
10/12/2001 Memodata/CRISCO (CNRS) 31
forme : extraction des traits contextuelsde différence et de ressemblance.Depuis : samouraï Vers : chevalier
Utilisation du Sémiographe
Forme (5/10)
Utilisation du Sémiographe
Forme (5/10)
Classème (contextuel)
Sémantèmes (contextuel)
Symétrie (ressemblance)
.
Dissymétrie (dissemblance)
Dissymétrie (dissemblance)
N. (grammème)
\Personnequi fait la guerre
Qui porte une armureQui est du Japon
Qui est noble
Les fonctions de texte
Utilisation du Sémiographe
Forme (6/10)
Utilisation du Sémiographe
Forme (6/10)
10/12/2001 Memodata/CRISCO (CNRS) 33
Le résumé lexical d’un texte• Principe : un texte traitant d’un sujet active
abondamment tous les isotopes de ce sujetbillard : [billard thème] [jouer thème] [adresse thème] [gagner thème] [salle thème]…
• Algorithme : activation d’isotopes, proximité
• Usage : indexation et filtrage• Résultats : apporte un plus, très bons
Utilisation du Sémiographe
(7/10)
Utilisation du Sémiographe
(7/10)
10/12/2001 Memodata/CRISCO (CNRS) 34
Le routage, nomenclature...
• Principe : un texte doit être dirigé automatiquement vers une boîte à lettres comme :
[guerre du kosovo] : guerre;kosovo
• Algorithme : activation ou proximité
• Résultats : peut être très bon pour les sujets référentiels, préférer match sur classe enrichi des brothers pour les structures actancielles
Utilisation du Sémiographe
(8/10)
Utilisation du Sémiographe
(8/10)
10/12/2001 Memodata/CRISCO (CNRS) 35
Signature sémantique
• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.
Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte
• Résultats : utile pour la recherche, ralenti l’indexation.
Utilisation du Sémiographe
(9/10)
Utilisation du Sémiographe
(9/10)
10/12/2001 Memodata/CRISCO (CNRS) 36
Comparaison de deux textes
• Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots.
Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte
• Résultats : utile pour la recherche, ralenti l’indexation.
Utilisation du Sémiographe
(10/10)
Utilisation du Sémiographe
(10/10)
10/12/2001 Memodata/CRISCO (CNRS) 37
Évolution du projet« Syntaxe Intégrale et Pragmatique Abstraite»
10/12/2001 Memodata/CRISCO (CNRS) 38
•La pragmatique abstraite– Pourquoi la bonne réponse à Quelle est la couleur du
cheval blanc d’Henry IV ? est-elle toujours blanc?
•La syntaxe intégrale– Concevoir des espaces indépendants de représentation
des observations : indépendance des variables = clarté des concepts
– Inventer ou sélectionner des terminologies propres à chaque espace
– Concevoir les effets des projections en tant qu’application d’un espace sur l’autre.
10/12/2001 Memodata/CRISCO (CNRS) 39 5
Turkish
güzellestirilecekti güzellestirilecekti güzelgüzel--lesles--tirtir --ilil--ecekecek--titi
(it) was going to be (it) was going to be bbeeautifi ed (autifi ed (iit was t was going to be caugoing to be caussed to aced to acqquiuirre beae beauuty)ty) ggüzelüzel –– beautybeauty --les les -- acacqquireuire --tirtir :: causativecausative --iil: passivel: passive --ecek: f utureecek: f uture --ti: pastti: past --0: 3rd Sg person0: 3rd Sg person 5
Turkish
güzellestirilecekti güzellestirilecekti güzelgüzel--lesles--tirtir --ilil--ecekecek--titi
(it) was going to be (it) was going to be bbeeautifi ed (autifi ed (iit was t was going to be caugoing to be caussed to aced to acqquiuirre beae beauuty)ty) ggüzelüzel –– beautybeauty --les les -- acacqquireuire --tirtir :: causativecausative --iil: passivel: passive --ecek: f utureecek: f uture --ti: pastti: past --0: 3rd Sg person0: 3rd Sg person
10/12/2001 Memodata/CRISCO (CNRS) 40
•Syntaxe intégrale ou componentielle =• déclaration de choses potentiellement vraies pour
chaque espace (à définir)• Sélection automatique des “matches” sur chaque
espace par qqch comme le Sémiographe indépendamment de toute idée préconçue de stratégie unificatrice.
• Syntaxe à la fois analytique et générative (pas de processus)