Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007...

25
Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble, 7 juin 2007

Transcript of Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007...

Page 1: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Normalisation pour les corpus et les lexiques multilingues

Laurent RomaryINRIA & MPG

EPAL 2007

Symposium « Corpus d’apprentissage en ligne »

Grenoble, 7 juin 2007

Page 2: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 2

Objectifs généraux

Partager des ressources (corpus annotés) Contexte : déclaration de Berlin

http://oa.mpg.de/openaccess-berlin/berlindeclaration.html

Partager des outils (annotation, visualisation, accès) Partager des pratiques

E.g. recueil de données, manuels d’annotation, méthodes d’évaluation

Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Page 3: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 3

Lexicométrie et corpus multilingues

Notion de corpus parallèle ou comparable Point de vue linguistique: rôle de l’expert Point de vue technique:

Adoption de formats « similaires »: codage primaire, niveaux d’annotation

Comparaisons de la sémantique des annotations E.g. définition transversale de concepts génériques paramétrant un

étiquetage morpho-syntaxique Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de

données dans le domaine des langues?

Page 4: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 4

Lexicométrie et corpus multilingues (suite)

Représentation consistante des structures lexicales Savoir choisir (spécifier) la structure lexicale qui convient au

recueil de données envisagé Croiser les observations avec des dictionnaires existants

interopérabilité

Deux aspects Organisation générale des entrées lexicales (méta-modèle) Choix des catégories de données permettant de décorer un

modèle particulier

Page 5: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 5

« Couverture linguistique » conditions de production & contenu linéaire

« Je sais que le langage courant est plein de pièges. »

=> S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004

« Corpus » collection de données caractérisée par une même couverture linguistique

Goriot, chap. I Le Monde 09/1986 articles sportifs du Monde 09/1986

corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)

« Ressource » unité physique de dépôt de données relatives à un corpus

Goriot scanné (image) Goriot texte brut (Word) Goriot étiqueté + arboré (XML Tiger)

Concepts fondamentaux

Page 6: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 6

« Niveau de description » ensemble cohérent d’informations explicitées relatif à un corpus

fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours

analyse humaine ou traitement automatique instancié par un schéma d’annotation (Ide & Romary, 2001)

données primaires et secondaires considération pratique : reconstitution de la couverture continuum théorique (texte balisé TEI ?)

« Méta-données » identification et gestion des données

Concepts fondamentaux

Page 7: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 7

Organisation linguistique

Corpus

CouvertureCaractérisations supplémentaires…

dépend de

0..n

0..1

Typologie informationnelleSourceSchéma d’annotationÉvaluation

Niveau de description

1..1

0..n

est composé de

Page 8: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 8

Organisation opérationnelle

Corpus

DépositaireDate de dépôt

CouvertureCaractérisations supplémentaires…

1..1

0..n

est composé de

Ressource dépend de

0..n

0..1

Typologie informationnelleSourceSchéma d’annotationÉvaluation

Niveau de description

1..1

0..n

est composé de

1..1 1..n

est composé de

Page 9: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 9

Méta-données

Complémentarité des initiatives internationales Dublin Core, OLAC, IMDI, TEI convergence sur les descripteurs du TC 37 de l’ISO

répertoire de catégories de données : rôles, codes de langue…

Méta-données utiles pour la FReeBank pertinence vis-à-vis de corpus, ressource et niveau de description prévoir des méta-données plus fines à terme

documentation des étiquettes morpho-syntaxiques caractérisation de données « primaires » / « secondaires »

Méta-données codées sous forme d’en-têtes TEI dissémination de bonnes pratiques pour la représentation et la transcription diffusion au format OLAC et IMDI

moissonnage de la FReeBank par les portails correspondants

Page 10: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 10

Exemple « types de discours »

Classification stable dans OLAC drama, formulaic discourse, interactive discourse, language play,

oratory, narrative, procedural discourse, singing, unintelligible speech

Caractérise la composante « niveau de description » utilisation de <textClass>/<classCode> dans l’en-tête TEI

A définir… opérationnalité de la classification percolation vers la composante « corpus » ?

Page 11: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 11

Exemple « rôles »

Ensemble complexe de rôles dans OLAC caractérisation des agents intervenant dans la création, gestion et distribution de

données linguistiques

Distribution vis-à-vis de l’architecture de la FReeBank Corpus

Depositor

Ressource Depositor, Compiler, Editor, Researcher, Sponsor

Niveau de description [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer,

Sponsor [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder,

Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

Page 12: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 12

Normalisation ?

Standard: Pratique d’un groupe de personnes, d’une communauté, choix

d’un industriel pour un produit Avantage: flexibilité Difficulté: maintenance (documentation, évolution, compatibilité

avec d’autres standards)

Norme Officialisation d’une telle pratique par une décision consensuelle

sous l’égide d’une organisation « reconnue » et « pérenne » E.g.: W3C, TEI, ISO, IEC, CEN

Page 13: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 13

Que normaliser?

Documentation des données Permettre l’identification des données existantes et de leurs

principales caractéristiques (conditions de recueil, description du contenu, droits associés)

Transcription Passage d’un matériau primaire brut à une représentation

élémentaire peu sensible aux choix théoriques (texte, phonétique)

Annotation Accompagne l’étude d’un phénomène, stabilise l’observation

Page 14: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 14

Bases de travail

Quelles initiatives devons nous considérer? De multiples projets ont visité le domaine

EAGLES, ISLE, Mate, NITE, OLAC, ATLAS

Quelques points de référence W3C TEI ISO

Autres?

Page 15: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 15

Le W3C

World Wide Web Consortium Principalement des industriels, 3 partenaires académiques (MIT,

ERCIM, Keio) Apporte des normes (recommandations) horizontales

XML, XSLT, chemins, pointeurs, liens RDF, RDFS, OWL SVG, SMIL SOAP, WSDL

Page 16: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 16

La TEI

Text Encoding Initiative Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5

(plus modulaire): 2004-2007

Les éléments principaux En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms

et dates, apparat critique etc.

Page 17: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 17

ISO

Organisation internationale de standardisation Association travaillant pour le compte de ses membres: les

organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.)

Organisé en comités techniques et sous-comités Couvre tous les domaines

Page 18: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 18

ISO - exemples

ISO-IEC/JTC1 E.g. ISO 10646 / Unicode pour l’identification et la représentatioin

universelle de caractères

ISO/TC 37 (Terminologie et autres ressources linguistiques) SC 1: Méthodes en terminologie SC 2: e.g. Codes langues; ISO 639-1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques

Page 19: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 19

L’ISO/TC 37/SC 4

Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques Mécanismes de base: e.g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation

Domaines abordés/à aborder Morpho-syntaxe, syntaxe, contenus sémantiques, discours,

lexiques, données multilingues, langages de requêtes, évaluation

http://www.tc37sc4.org

Page 20: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 20

LMF: le modèle

Lexical DB

1..1

Global Info

1..1

Lexical Entry0..n1..1

1..1

Form

1..1

Sense

0..n1..1

0..n

1..1

Lexical Entry

Morphology1..1

1..1Lexical Entry

Morphology1..1

1..1

Lexicalextensions

Lexicalextensions

LexicalextensionLexical

extension

0..1

Paradigm

1..1

Flexion

0..n1..1

Lexical extensionfor morphology

Page 21: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 21

Méta-modèle d’un lexique morphologique

Morphology

1..1

1..1

Paradigm

0..1

1..1

Inflexion

0..n

1..1

Lexical DB

Entry

0..n

1..1

1..1

Global Info

1..1

Page 22: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 22

Décoration du modèle

Lexical DB

Entry

0..n

1..1

Morphology

1..1

1..1

Paradigm

0..1

1..1

Inflexion

0..n

1..1

/lemma//POS/

/word form//gender//number//tense/…

1..1

Global Info

1..1

Page 23: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 23

Une entrée du DCR

Entry Identifier: grammatical genderProfile: morpho-syntaxDefinition (fr): Catégorie grammaticale reposant, selon les langues et les

systèmes, sur la distinction naturelle entre les sexes ou sur

des critères formels (Source: TLFi)Definition (en): Grammatical category… (Source: TLFi (Trad.))Conceptual Domain: {/feminine/, /masculine/, /neuter/}Object Language:

frName: genreConceptual Domain: {/feminine/, /masculine/}

Object Language: enName: genderName: grammatical gender

Object Language: deName: GeschlechtName: GenusConceptual Domain: {/feminine/, /masculine/, /neuter/}

Page 24: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 24

Un format compatible avec le modèle

<struct type='lexical entry'><feat type='lemma'>chat</feat><feat type=’grammatical category’>noun</feat><struct type=’morphology’>

<struct type=‘paradigm’><feat type=’paradigm

identifier'>fr-s-plural</feat></struct><struct type='inflexion'>

<feat type='word form'>chat</feat><feat type=’number’>singular</feat>

</struct><struct type='inflexion'>

<feat type='word form'>chats</feat><feat type=’number’>plural</feat>

</struct>…

</struct></struct>

Page 25: Normalisation pour les corpus et les lexiques multilingues Laurent Romary INRIA & MPG EPAL 2007 Symposium « Corpus d’apprentissage en ligne » Grenoble,

Seite 25

Application directes

Morphalou: un lexique morphologique ouvert

Téléchargement+ patch+fair use

FReeBank: une base de ressources libres annotées

Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use

Une institution de référence: Le CNRTL