Master 2 Traduction spécialisée multilingue : Technologies ...
Prolexbase : Un dictionnaire relationnel multilingue de noms propres
-
Upload
renee-wood -
Category
Documents
-
view
34 -
download
3
description
Transcript of Prolexbase : Un dictionnaire relationnel multilingue de noms propres
1
Prolexbase :Un dictionnaire relationnel
multilingue de noms propres
Denis Maurel1, Mickaël Tran1, Thierry Grass2, Duško Vitas3
1Université François-Rabelais de Tours, LI2Université François-Rabelais de Tours, L&R
3Faculté des Mathématiques de Belgrade
2
Un lexique sémantique
3
Sémantique
La sémantique de notre dictionnaire s’appuie sur une ontologie autour du nom propre
conceptuel et de ses relations.Elle est commune
aux langues traitées.
4
Une ontologie multilingue de noms propres
Prolexème L1
Alias
AR
Formes fléchies
Méta - conceptuel
Conceptuel
Linguistique
Instances
Commun aux
langues traitées
NR
Supertype Supertype
Type
Synonymie
Méronymie
Prédication
Pivot
Particulier à une
langue donnée
Prolexème L2
AR NR
Alias
Formes fléchies
Essenc e
Pivot : le nom propre conceptuel
AR : Adjectif relationnel
NR : Nom relationnel
Méta - conceptuel
Conceptuel
Linguistique
Instances
Commun aux
langues traitées
Particulier à une
langue donnée
Supertype Supertype
Type
Synonymie
Méronymie
Prédication
Pivot
Essenc e
Prolexème L1
Alias
AR
Formes fléchies
NR AR
NR
5
Le nom propre conceptuel
Un nom propre conceptuelne correspond pas au référent linguistique,
mais à un certain point de vue sur ce référent.
Un nom propre conceptuel est hyponyme d’un type et d’une essence.
• Point de vue diachronique :Saint-Pétersbourg et Leningrad
• Point de vue diastratique :Parigot et Parisien
• Point de vue diatextuel :Cité phocéenne et Marseille
• Point de vue diatopique :Nantes et Naoned
CélébritéPatronymePrénomPseudo anthroponyme
Anthroponyme
AssociationEnsembleEntrepriseInstitutionOrganisationVille
AnthroponymeErgonymeToponyme
PaysRégionSupranational
AnthroponymeToponyme
ŒuvreProduit
Ergonyme
FêteHistoireManifestation
ErgonymePragmonyme
EdificeVaisseauVoie
ErgonymeToponyme
CatastropheMétéorologie
Pragmonyme
AstronymeGéonymeHydronyme
Toponyme
HistoriqueReligieuxFictif
26 types et 4 supertypes hyperonymes
3 essences
6
Les relations• Synonymie :Saint-Pétersbourg et LeningradCité phocéenne et Marseille• Méronymie :Tours Région Centre FranceLU DanoneFrance Onu la Prise de la Bastille la Révolution française• Prédication :Paris est la capitale de la FranceRay Norda est le patron de NovellJacques Chirac est le locataire de l'ElyséeAaron est le frère de Moïse
Un lien vers d'autres dictionnaires (langue générale, par exemple Eurowordnet) est prévu par une relation d’export.
7
Un lexique morphosyntaxique
8
Morphosyntaxe
La morphosyntaxe de notre dictionnaire est construite autour du prolexème associé à des
grammaires locales .
Elle est particulièreà une langue donnée.
9
La partie particulièreà une langue donnée
Le niveau linguistique regroupe les lemmescorrespondant à un même nom propre
dans une langue donnée :le Prolexème.
Les formes fléchies constituentle niveau des instances.
10
Exemple
3200
Organisation des nations unies
Nations unies
AR onusien
Nations unies FP Onu FS
Organisation
Onu
Organisation des nations unies FS onusien MS onusienne FS onusiens MP
onusiennes FP
NR Onusien
Onusien MS Onusienne FS Onusiens MP
Onusiennes FP
Anthroponyme
Prolexème FR
Alias
Dérivés
Historique
3200
Organisation des nations unies
Nations unies
Organisation
Anthroponyme
Historique
Organisation des nations unies
Nations unies Onu
NR Onusien
Nations unies
AR onusien
Nations unies FP Onu FS
Onu
onusien MS onusienne FS onusiens MP
onusiennes FP
NR Onusien
Onusien MS Onusienne FS Onusiens MP
Onusiennes FP
11
Des exemples de grammaire locale
PrepNPays.grf
en
FranceItalieSuisseetc.
au
BrésilCanadaPortugaletc.
Au niveau des expansions :
Au niveau des prédicats :
12
La traduction
Un système de TA doit donc être basé non sur des dictionnaires bilingues (ni, à plus forte raison, multilingues) mais sur […] des descriptions lexicales de différentes langues effectuées d’après les mêmes principes.
Blanco X. (2001), Dictionnaires électroniques et traduction automatique espagnol-
français, Langages, 143:66
Beograaninov est un dérivé de Belgrade(un adjectif possessif)
13
Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position.
Les anaphores
Paris accueille avec perplexité l’initiative de Tony Blair... Les discussions qui ont eu lieu sur ce sujet en Grande-Bretagne…, laissent penser que Londres cherche à tirer les leçons de la Bosnie et de l’Albanie… La Grande-Bretagne et la France, qui ont opéré de manière très étroite, seraient dans une position délicate si les Américains venaient à se retirer… Les Britanniques, qui ont eu des échanges avec Washington sur leur nouvelle initiative, pensent que les États-Unis pourraient revoir leur position.
Relation de prédication
Dérivation
14
L’implantation
15
La structure de Prolexbase0,1
1,n
synonyme0,1
canonique0,n
hyperonyme0,n
hyponyme0,n
1,1
1,n
holonyme 0,n
méronyme 0,n
argument2
0,n
argument10,n
1,1
1,1
0,n
0,n1,n
1,1
1,n
1,n
0,n0,1
0,1
1,n
1,n
0,1
0,n
1,n
0,10,n
1,n
1,1
0,10,n
1,n
0,n
1,1
1,1
1,n
0,n
1,1 1,n
0,n
0,n
0,1
1,1
1,n
1,1
0,n
0,n
1,11,1
0,n
0,n0,n
1,1
1,1
0,n
1,1
1,n
0,n
1,1
0,n
0,1
1,1
0,n0,n
1,1
0,n
0,n
1,n
1,n
1,1
0,nPROLEXEME
NUM_PROLEXEMELIBELLE_PROLEXEME
IDTXT
INSTANCE
NUM_INSTANCELIBELLE_INSTANCE
IDTXT
A_pour_phonétique
A_pour_instance3
PIVOT
NUM_PIVOT ID
Identifier_1 <pi>
DIASYSTEME
NUM_DIASYSTEMELIBELLE_DIASYSTEME
IDTXTSynonymie
TYPE
NUM_TYPELIBELLE_TYPE
IDTXT
Hyperonymie2
Hyperonymie1
Concept
Méronymie
EXPANSION
NUM_EXPANSIONLIBELLE_EXPANSION
IDTXT
Prédication
A_pour_grammaire2
ALIAS
NUM_ALIASLIBELLE_ALIAS
IDTXT
Accepte_comme2
A_pour_expansion
A_pour_notoriété
BLARK
NUM_BLARKLIBELLE_BLARK
IDTXT
Instances
Linguistique
Méta-conceptuel
Conceptuel
DERIVE
NUM_DERIVELIBELLE_DERIVE
IDTXT
Accepte_comme3
A_pour_instance1
PHONETIQUE
NUM_PHONETIQUELIBELLE_PHONETIQUE
IDTXT
Accepte_comme1
Accepte_comme4
DETERMINATION
NUM_DETERMINATIONLIBELLE_DETERMINATION
IDTXT
A_pour_détermination
CATEGORIE
NUM_CATEGORIELIBELLE_CATEGORIE
IDTXT
Exporter1 EXPORT
NUM_WORDNET ID
ESSENCE
NUM_ESSENCELIBELLE_ESSENCE
IDTXT
Hyperonymie3
PREDICAT
NUM_PREDICATLIBELLE_PREDICAT
IDTXT
GRAMMAIRE
NUM_GRAMMAIRELIBELLE_GRAMMAIRE
IDTXT
A_pour_grammaire1
MORPHOLOGIE
NUM_MORPHOLOGIECLASSEGENRECASNOMBRE
IDTXTTXTTXTTXT
A_pour_morphologie
A_pour_instance2
FLEXION
NUM_FLEXIONLIBELLE_FLEXION
IDTXT
LANGUE
NUM_LANGUELIBELLE_LANGUE
IDTXT
A_pour_langue
A_pour_flexion1
A_pour_flexion2A_pour_flexion3
A_pour_catégorie2A_pour_catégorie1
TRI
NUM_TRILIBELLE_TRI
IDTXT
A_pour_tri
ANTONOMASE
NUM_ANTONOMASELIBELLE_ANTONOMASE
IDTXT
A_pour_antonomase
Exporter2
IDIOME
NUM_IDIOMELIBELLE_IDIOME
IDTXT
A_pour_idiome
A_pour_statistique
STATISTIQUE
NUM_STATISTIQUELIBELLE_STATISTIQUEPOIDS
IDTXTI
A_pour_derivation
A_pour_aliasisationALIASISATION
NUM_ALIASISATIONLIBELLE_ALIASISATION
IDTXT
DERIVATION
NUM_DERIVATIONLIBELLE_DERIVATION
IDTXT
TERMINOLOGIE
NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE
IDTXT
A_pour_terminologie
1,1
1,n
synonyme0,1
canonique0,n
hyperonyme0,n
hyponyme0,n
1,n
holonyme 0,n
méronyme 0,n
argument2
0,n
argument10,n
1,1
1,n
0,10,n
1,n
1,1
1,1
1,n
0,n
PIVOT
NUM_PIVOT ID
Identifier_1 <pi>
DIASYSTEME
NUM_DIASYSTEMELIBELLE_DIASYSTEME
IDTXTSynonymie
TYPE
NUM_TYPELIBELLE_TYPE
IDTXT
Hyperonymie2
Hyperonymie1
Concept
Méronymie
Prédication
Méta-conceptuel
Conceptuel
Exporter1 EXPORT
NUM_WORDNET ID
ESSENCE
NUM_ESSENCELIBELLE_ESSENCE
IDTXT
Hyperonymie3
PREDICAT
NUM_PREDICATLIBELLE_PREDICAT
IDTXT
Exporter2
1,1
1,1
0,n
0,n1,n
1,n
1,n
0,n0,1
1,n
1,n
0,1
0,n
0,10,n
1,n
1,1
0,n
0,n
0,n
1,1
1,n
1,1
0,n
0,n
1,11,1
0,n
0,n0,n
1,1
1,1
1,1
1,n
0,n
1,1
0,n0,n
1,1
0,n
0,n
1,n
1,n
1,1
0,nPROLEXEME
NUM_PROLEXEMELIBELLE_PROLEXEME
IDTXT
A_pour_phonétique
ALIAS
NUM_ALIASLIBELLE_ALIAS
IDTXT
Accepte_comme2
A_pour_expansion
A_pour_notoriété
BLARK
NUM_BLARKLIBELLE_BLARK
IDTXT
Linguistique
DERIVE
NUM_DERIVELIBELLE_DERIVE
IDTXT
Accepte_comme3
PHONETIQUE
NUM_PHONETIQUELIBELLE_PHONETIQUE
IDTXT
Accepte_comme1
Accepte_comme4
DETERMINATION
NUM_DETERMINATIONLIBELLE_DETERMINATION
IDTXT
A_pour_détermination
CATEGORIE
NUM_CATEGORIELIBELLE_CATEGORIE
IDTXT
FLEXION
NUM_FLEXIONLIBELLE_FLEXION
IDTXT
LANGUE
NUM_LANGUELIBELLE_LANGUE
IDTXT
A_pour_langue
A_pour_flexion1
A_pour_flexion2A_pour_flexion3
A_pour_catégorie2A_pour_catégorie1
TRI
NUM_TRILIBELLE_TRI
IDTXT
A_pour_tri
ANTONOMASE
NUM_ANTONOMASELIBELLE_ANTONOMASE
A_pour_antonomase
A_pour_idiome
A_pour_statistique
STATISTIQUE
NUM_STATISTIQUELIBELLE_STATISTIQUEPOIDS
IDTXTI
A_pour_derivation
A_pour_aliasisationALIASISATION
NUM_ALIASISATIONLIBELLE_ALIASISATION
IDTXT
DERIVATION
NUM_DERIVATIONLIBELLE_DERIVATION
IDTXT
TERMINOLOGIE
NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE
A_pour_terminologie
1,1
1,1
1,1
0,n
0,n1,n
1,n
0,n0,1
1,n
1,n
0,n
1,n
1,1
0,n
0,n
0,n
1,1
1,n
1,1
0,n
0,n
1,1
0,n
1,1
1,1
0,n
1,1
0,n
1,1
0,1
1,1
0,n0,n
0,n
0,n
1,1
0,nPROLEXEME
NUM_PROLEXEMELIBELLE_PROLEXEME
IDTXT
A_pour_phonétique
EXPANSION
NUM_EXPANSIONLIBELLE_EXPANSION
IDTXT
A_pour_grammaire2
ALIAS
NUM_ALIASLIBELLE_ALIAS
IDTXT
Accepte_comme2
A_pour_expansion
DERIVE
NUM_DERIVELIBELLE_DERIVE
IDTXT
Accepte_comme3
PHONETIQUE
NUM_PHONETIQUELIBELLE_PHONETIQUE
IDTXT
DETERMINATION
NUM_DETERMINATIONLIBELLE_DETERMINATION
IDTXT
A_pour_détermination
GRAMMAIRE
NUM_GRAMMAIRELIBELLE_GRAMMAIRE
IDTXT
A_pour_grammaire1
FLEXION
NUM_FLEXIONLIBELLE_FLEXION
IDTXT
LANGUE
NUM_LANGUELIBELLE_LANGUE
IDTXT
A_pour_langue
A_pour_flexion1
A_pour_flexion2A_pour_flexion3
A_pour_catégorie2A_pour_catégorie1
ANTONOMASE
NUM_ANTONOMASELIBELLE_ANTONOMASE
IDTXT
A_pour_antonomase
IDIOME
NUM_IDIOMELIBELLE_IDIOME
IDTXT
A_pour_idiome
TERMINOLOGIE
NUM_TERMINOLOGIELIBELLE_TERMINOLOGIE
IDTXT
A_pour_terminologie
1,1
0,10,1
1,1 1,n
0,1
INSTANCE
NUM_INSTANCELIBELLE_INSTANCE
IDTXT
A_pour_instance3
Instances
A_pour_instance1
MORPHOLOGIE
NUM_MORPHOLOGIECLASSEGENRECASNOMBRE
IDTXTTXTTXTTXT
A_pour_morphologie
A_pour_instance2
16
Les interfaces
Consultation avancée
Simple recherche
Bientôt disponible sur http://tln.li.univ-tours.fr/
17
Quelques chiffres…
La base vient seulement d’être installée, mais des données sont prêtes à être rentrées.
En français : ● Plus de 323 000 entrées ● et 55 000 liens relationnels
En anglais, hollandais, français, italien, allemand,grec, portugais espagnol et russe : ● 838 noms géographique ● 766 entreprises ● 2635 prénoms ● 520 humains collectifs ● 7306 villes ● 502 pays ● 818 habitants
18
Des projets d’applications…
Recherche d'information
Indexation
Aide à la traduction
Traduction automatique
Alignement de textes multilingues
Correction d’orthographe…
Pour ces applications, il sera possible d’interroger la base par un échange de fichiers XML
19
Merci !