Histoire de La France CE1 Troux-Vidal de La Blache-Mangeot Classiques Hachette
1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et...
-
Upload
godefrey-villeneuve -
Category
Documents
-
view
111 -
download
4
Transcript of 1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et...
Jeudi 27 septembre 2001 1/43
Environnements centralisés et Environnements centralisés et distribués pour lexicographes et distribués pour lexicographes et
lexicologues en contexte multilinguelexicologues en contexte multilingue
Mathieu Mangeot Lerebours
GETA-CLIPS & XRCE
Grenoble, France
Jeudi 27 septembre 2001 2/43
SituationSituation Problème industriel
Projet EDR : dictionnaire ja-en de 300 000 articles, 1500 hommes/année, prix prohibitif
Projet GENELEX : seulement 3000 articles publics
Problème social pour la francophonie Manque de dictionnaires fr-autre langue
Problème logique Comment créer des dictionnaires multilingues ?
EURODICAUTOM fonctionne pour 12 langues mais c’est une base terminologique.
Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires
EDict ja-en de Jim Breen SAIKAM ja-th
Jeudi 27 septembre 2001 3/43
Plan de l'exposéPlan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires
Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat
Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML
Application au projet Papillon Description du projet Exemples d'utilisation
Conclusion Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001 4/43
ObjectifsObjectifs
Concevoir un environnement qui permette : la manipulation de ressources hétérogènes
Utilisation de ressources distantes
Récupération de ressources existantes
Export dans des formats variables
la consultation de plusieurs ressources Par des humains et des machines
la construction en collaboration sur Internet de
ressources multilingues
Jeudi 27 septembre 2001 5/43
Problèmes dursProblèmes durs
Unifier et réutiliser les ressources Structures internes hétérogènes
Format commun ? Formalisme générique ?
Visualisation d'une grande quantité de données
Développer des ressources en collaboration Concevoir des outils accessibles et portables
Contributeurs aux compétences variées
Risque de pollution par contributions erronées
Jeudi 27 septembre 2001 6/43
Plan de l'exposéPlan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires
Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat
Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML
Application au projet Papillon Description du projet Exemples d'utilisation
Conclusion Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001 7/43
Jeudi 27 septembre 2001 8/43
Consultation de ressources Consultation de ressources hétérogènes en ligne : DicoWebhétérogènes en ligne : DicoWeb
Fichiers source au format d’origine (SGML) Temps de réponse très convenable (< 1s)
Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation
Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines
Jeudi 27 septembre 2001 9/43
Construction "démocratique"Construction "démocratique"
GloseCatégorie anglaise
Entrée
UW
Catégorie française
Équivalent français
menu spécial boutons des macros
Jeudi 27 septembre 2001 10/43
Construction en ligneConstruction en ligne
Jeudi 27 septembre 2001 11/43
Personnalisation du résultatPersonnalisation du résultat
villes
Jeudi 27 septembre 2001 12/43
Plan de l'exposéPlan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires
Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat
Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML
Application au projet Papillon Description du projet Exemples d'utilisation
Conclusion Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001 13/43
Idées forcesIdées forces
Pour la manipulation des données Formalisme souple et générique Technologie XML
Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles
Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues)
Jeudi 27 septembre 2001 14/43
Architecture externeArchitecture externe
Service
API serviceAPI fournisseur
•Lemmatiseur•Phonétiseur
Ressource distanteServeur partenaireDicDist
NoyauImport
Export
DicOrig
DicGenArticles
Consulteurs ContributeurLexicographe
API consultation API modificationAPI préférences
Articles Articles
Jeudi 27 septembre 2001 15/43
Architecture interneArchitecture interne
Import
Ressources locales
DicOrig
DicGen
Administrateur
Prefs Users &Groups
Profils
ExportPRODUCDIC
SpécialisteLexicologue
SUBLIM = G. Sérasset
Poids Historique
Formatpropre
FormatDML
Manipulation avec leformalisme SUBLIM
Jeudi 27 septembre 2001 16/43
Gestion des ressourcesGestion des ressources
Ressources locales
Export
Intégration
Récupération
DicDist
DicOrig
DicGen
Contrib1
Contrib2Contrib5
DicRec3
Contrib3Contrib4
Contrôle
Format propre
Format DMLPurgatoire
Format SParadis
ImportIn
tégr
atio
n
Structure S
DicRec2DicRec1
DicRec4
•Récupération =RÉCUPDIC•Export =PRODUCDICDe Haï Doan
Consultation
Jeudi 27 septembre 2001 17/43
Le formalisme SUBLIMLe formalisme SUBLIM
LEXARD architecture lexicale, macrostructure
Définition de bases lexicales contenant les dictionnaires
Définition de dictionnaires monolingues, bilingues, etc.
LINGARD architecture linguistique, microstructure
Définitions d'objets linguistiques : arbres, graphes, automates,
structures de traits, liens, fonctions, etc.
Langage de vérification de contraintes
sur les objets définis en LEXARD et LINGARD
Jeudi 27 septembre 2001 18/43
Exemple d'utilisation de LEXARDExemple d'utilisation de LEXARD
Fra
Eng Tha
Jpn
Int
Dictionnaire multilingueà structure pivot
(define-monolingual-dictionary eng :language "English" :owner "GETA")(define-monolingual-dictionary fra :language "French" :owner "GETA")...
(define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA")
(define-lexical-database GETA-base :dictionaries
(eng fra jpn tha int) :owner "GETA" :comment "base lexicale du GETA")
Jeudi 27 septembre 2001 19/43
Extensions de SUBLIMExtensions de SUBLIM
Extension du langage LEXARD Traitement de l'aspect communication (API)
Gestion des utilisateurs et groupes
Ajout d'information sur les ressources
Jeudi 27 septembre 2001 20/43
Extension de LEXARDExtension de LEXARD
Ajout d'un niveau : les volumes Ensemble d'objets linguistiques de même structure
Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions
Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc.
Ajout des API fournisseur, consultation, etc.Fra EngFra Eng
Monolingue Bilingue
Base lexicale
Dictionnaires
Eng FraEng Fra
Eng
Eng
Eng
1 volume 2 volumes
Jeudi 27 septembre 2001 21/43
Extensions de SUBLIM (2)Extensions de SUBLIM (2)
Extension du langage LEXARD Traitement de l'aspect communication (API)
Gestion des utilisateurs et groupes
Ajout d'information sur les ressources
Besoin de descripteurs communs dans les dictionnaires=> Définir un ensemble d'éléments communs ayant
la même sémantique pour tous les dictionnaires
Jeudi 27 septembre 2001 22/43
Éléments communs CDMÉléments communs CDMCommon Dictionary MarkupCommon Dictionary Markup
éléments CDM FeM DHO NODE <entry> <fem-entry> <se> <se> <headword> <entry> <hw> <hw> <pronunciation> <french_pron> <pr><ph> <pr><ph> <etymology> <etym> <syntactic-sense> <sense n=1> <s1> <pos> <french_cat> <pos> <ps> <lexie> <sense n=2> <s2> <indicator> <gloss> <id> <label> <label> <li> <la> <example> <french_sentence> <ex> <ex> <definition> <df> <translation> <english_equ>
<malay_equ> <tr>
<collocate> <co> <link> <cross_ref_entry> <xr> <xg>/<vg> <note> <ann>
Jeudi 27 septembre 2001 23/43
Extensions de SUBLIM (3)Extensions de SUBLIM (3)
Extension du langage LEXARD Traitement de l'aspect communication (API)
Gestion des utilisateurs et groupes
Ajout d'information sur les ressources
Besoin de descripteurs communs dans les dictionnaires Définition de l’ensemble d’éléments communs CDM
Gestion des données avec la technologie XML
Jeudi 27 septembre 2001 24/43
Gestion des données avec XMLGestion des données avec XML
Espace de noms DML (Dictionary Markup Language)
<MyElement xmlns:dml="http://clips.imag.fr/geta/services/dml">
Types génériques Langue, date, durée, historique, ids, etc.
Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API
Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc.
Sous-ensemble d'éléments communs CDM=> Schéma XML de 1500 lignes pour DML
Jeudi 27 septembre 2001 25/43
Exemple de représentation en XML :Exemple de représentation en XML :Le régime d'enseigner : X enseigne Y à ZLe régime d'enseigner : X enseigne Y à Z
Pierre enseigne la grammaire / à faire celaPierre enseigne la grammaire à ses élèves
Automate :
Exemples :
1 2
5
4
3 6
X Y Z
N N à N
à N
N (rare)
à Vinf
Jeudi 27 septembre 2001 26/43
Passage de SUBLIM à XMLPassage de SUBLIM à XML(def-linguistic-class régime (feature-structure ( (automate automate-régime) (exemples exemples-regime)) ))
(def-linguistic-class automate-régime
automaton :arcs real-args))
(def-linguistic-class exemples-régime
(set-of (feature-structure ( (réalisations (list-of (string)) (exemple string))) ))
<element name="régime"> <complexType><sequence> <element ref="automate-regime"/> <element ref="exemples-regime"/> </sequence></complexType></element>
<element name="automate-regime"type="automaton"/>
<complexType name="arcType"> <extension base="arcType"> <sequence> <element name="real-args"/> </sequence></extension></complexType>
<element name="exemples-regime"> <complexType><sequence> <element name="realisations"/> <element name="exemple"/> </sequence></complexType></element>
Jeudi 27 septembre 2001 27/43
Bilan sur l'environnementBilan sur l'environnement
Notre environnement permet de : Récupérer, manipuler et exporter des ressources
hétérogènes existantes
Définir de nouvelles structures de dictionnaires
Gérer des utilisateurs et groupes avec leurs préférences et leurs profils
Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle
Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide
Jeudi 27 septembre 2001 28/43
Plan de l'exposéPlan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires
Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat
Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML
Application au projet Papillon Description du projet Exemples d'utilisation
Conclusion Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001 29/43
Une Application : le projet PapillonUne Application : le projet Papillon
Objectif de départ : Dictionnaire multilingue incluant le français et le japonais
Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko
Tomokiyo
Motivations : Manque d'informations dans les ressources existantes
(spécificateurs, kanji+kana+romaji) Très peu de ressources existantes
Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble
Jeudi 27 septembre 2001 30/43
Méthodologie de constructionMéthodologie de construction
Récupération de ressources existantes Base DiCo (fr, 3 000 articles) FeM (fr-en-ms, 20 000 art; 70 000 lexies fr) JMDict (ja-en, 70 000 art), (ja-fr, 10 000 art) SAIKAM (th-ja, 4 000 art)
Correction/ajout par des contributeurs bénévoles
Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines
Jeudi 27 septembre 2001 31/43
Intérêts scientifiques du projetIntérêts scientifiques du projet
Application concrète de notre environnement Personnalisation du résultat des requêtes
Enrichissement de la consultation
Mise au point des interfaces utilisateurs
Dictionnaire à structure pivot Utilisation de liens interlingues ou axies
Développement de dictionnaires en communauté Paradigme de construction de LINUX
Profils et préférences utilisateurs
Jeudi 27 septembre 2001 32/43
Architecture externeArchitecture externe
Couche données(data)
Couche de travail(business)
Serveur EnhydraWeb dynamique
Couche de présentation(presentation)
MHonArc
HTML+ CSS + Applet Java
Manipulant des données XML
Listes dedistribution
SGBDRelationnelPostgreSQL(UNICODE)
table d'objets XML
SGBD
Jeudi 27 septembre 2001 33/43
Gestion des ressources PapillonGestion des ressources Papillon
Ressources locales
Export
Intégration
Récupération
DicDist
DicOrig
DicGen
Contrib1
Contrib2Contrib5
FeM
JMDict
SAIKAM
DiCo
Contrib3Contrib4
Contrôle
Format propre
Format DMLSoupe lexicale
Format Papillon
ImportIn
tégr
atio
nSpap
Consultation
Jeudi 27 septembre 2001 34/43
Macrostructure de la baseMacrostructure de la baseDiCo français
Vocable affection n.f.
lexie affection.1 (tendresse)
lexie affection.2 (médecine)
Liens interlingues
lexie maladie
Vocable maladie n.f.
Liens de raffinement
1 concept = 3 acceptions
DiCo anglais
Vocable disease N
lexie disease
lexie affection
Vocable affection N
病気【びょうき】
DiCo japonais
Jeudi 27 septembre 2001 35/43
Article monolingue : lexieArticle monolingue : lexie Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE
L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales :
{QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~];
tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/
Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes :
_appel au meurtre_ _crier au meurtre_
Lien vers une acception interlingue axie
Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk
Jeudi 27 septembre 2001 36/43
Article interlingue : axieArticle interlingue : axie<axie id="a01"> <semantic-cat>entity</semantic-cat> <fra> <reflexie href="meurtre$1"/> </fra> <eng> <reflexie href="murder$1"/> </eng> <external-references> <UNL resource="UNL-fr.unl"> <uw>murder(icl>action,agt>human,obj>human)</uw> </UNL> <WordNet resource="Wordnet.txt"> <synset>00143589</synset> </WordNet> </external-references></axie>
Jeudi 27 septembre 2001 37/43
Interface de consultationInterface de consultation
Jeudi 27 septembre 2001 38/43
Présentation à la DECPrésentation à la DEC
Jeudi 27 septembre 2001 39/43
Présentation compacte (LAF)Présentation compacte (LAF)
Jeudi 27 septembre 2001 40/43
Plan de l'exposéPlan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires
Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat
Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML
Application au projet Papillon Description du projet Exemples d'utilisation
Conclusion Bilan, problèmes restants et perspectives
Jeudi 27 septembre 2001 41/43
Principes dégagés devant ce travailPrincipes dégagés devant ce travail
Aspect collaboratif Mutualisation Consultation gratuite Personnalisation
générale
Gestion des données Héritage
Traçabilité
Protection des données
Structuration logique Exhaustivité Abstraction du
niveau de données
Mise en œuvre Récupération totale
Réciprocité
Jeudi 27 septembre 2001 42/43
Problèmes restants à résoudreProblèmes restants à résoudre
Interfaces pour lexicologues
Pour récupérer et exporter des ressources
Pour spécifier des structures de dictionnaires
Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies)
Automatiser la fusion des liens
Calcul automatique des profils utilisateurs
Intérêts, compétences, réalisations
Jeudi 27 septembre 2001 43/43
Perspectives à court termePerspectives à court terme
PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur
Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir
Recherche sur les interfaces pour lexicologues : manipulation des ressources
pour consulteurs : spécifier ses préférences
pour contributeurs : contribuer sur des articles en ligne