Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ......

Annotation du français médiévalmorphosyntaxe et syntaxe

Alexei Lavrentiev , Sophie Prévost

Lattice, ICAR

Ecole thématique « Annotation de données langagières »Biarritz, 10-16 septembre 2011

Ecole thématique « annotation de données langagières »

Plan

� Présentation� Contexte : Projets de corpus et de recherches� Problèmes spécifiques d’annotation du français médiéval� Étiquetage morphosyntaxique : outils et procédure BFM� (Annotation syntaxique : outils et procédure SRCMF)?

� Atelier� Installation des outils

� TXM & TreeTagger� et/ou NotaBene & Tiger Search

� Manipulation des outils d’annotation� Exploitation d’un corpus annoté


Projets

� Morpho MultiDim�Projet ILF, dir. Serge Heiden, ENS Lyon,

2006-2008.�Etiquetage morpho-syntaxique de textes de

français médiéval dans un cadre multidimensionnel (avec prise en compte des types de textes)


Projets

� CoRPTeF - Corpus représentatif des premiers textes français � Projet ANR, dir. Céline Guillot, ENS Lyon, 2008-2010� http://corptef.ens-lyon.fr/� Elaboration d’un corpus de référence pour le très

ancien français (du IXe au XIIe siècle) : représentatif sur les plans qualitatif et quantitatif pour permettre des recherches sur le très ancien français.

� 47 textes (+ d’1 million de mots) ; corpus exhaustif pour la période antérieure à 1100.

� Plusieurs textes étiquetés morpho-syntaxiquement


Projets

� SRCMF - Syntactic Reference Corpus of Medieval French � Projet ANR-DFG franco-allemand, dir. Achim Stein et Sophie

Prévost, 2009-2011� https://listes.cru.fr/wiki/srcmf/� Annotation syntaxique d’un corpus de français médiéval� Annotation syntaxique manuelle (modèle de type dépendantiel). � Etiquetage morpho-syntaxique automatique avec vérification

manuelle.� 18 textes, 351 000 mots


Projets

� GGHF - Grande Grammaire Historique du Français � dir. Ch. Marchello-Nizia, B. Combettes, T. Scheer et

S. Prévost, 2008-� Projet de grammaire historique qui s’appuie sur un

corpus pour l’ensemble des siècles. � Pour la période ancien français, l’ensemble des

textes bénéficie de l’étiquetage morpho-syntaxiqueréalisé dans le cadre des deux autres projets, et certains bénéficient de l’annotation réalisée dans SRCMF.


Projets

� Au centre des projets : la Base de Français Médiéval(BFM)� http://bfm.ens-lyon.fr/� Les 4 projets précédents s’appuient sur des textes de la BFM

(lancée en 1989 par Ch. Marchello-Nizia)� Direction : C. Guillot, gestion : A. Lavrentiev� 26 textes (environ 1 500 000) / 80 textes (plus de 3 millions de

mots) du 9ème au 15ème siècle� Projet d’étiquetage morpho-syntaxique des textes de la BFM

lancé en 2001, puis développé dans le cadre des différents projets

� Interactions entre les projets : � mutualisation partielle des textes


Problèmes d’annotation du français médiéval

� Pas de compétence et pas de recours possible à des informateurs

� Pas d’accès à l’oral « oralisé »

� Authenticité des données : travail sur édition ou sur manuscrit � Travail d’enrichissement plutôt sur des textes édités (versus manuscrit)� Choix d’éditions peu interventionnistes� Edition numérique de la Quête du Graal

� Deux points communs entre Langue ancienne et Oral moderne :� variation� segmentation

� Remarque : la variation opère en diachronie, mais aussi en synchronie



� a) Forte variation graphique et morphologique : problème pour les outils de TAL� Variation d’un texte à l’autre :

� fet/fait � aviiens, avïens, aviens, aviions, avyons,� molt, mult, mout, moult: propos, propoz, propost, propous, proppoz,

proupoz, propotz, propoux, propox� mais aussi dans un même texte (Quinze joyes de Mariage, deb.

15ème):� auxi, aussi, aussy

� Variation accrue par l’existence d’une déclinaison casuelle: � cils, cilz / cels, celz, ceulx, ceus, ceuz, ceux, ceulz,ceuls.

� Apport précieux de la lemmatisation, quand elle existe



� b) Souplesse de l’ordre des mots : �Position des pronoms personnels clitiques,

position pré- ou postverbale du sujet , ...



� c) Unités graphiques et unités linguistiques : coïncidence non systématique� Etiquetage et segmentation en mots des textes de la BFM s’opèrent sur

la forme de surface des textes telle que définie par l’éditeur scientifique. � => Respect des segmentations (et graphies) de l’éditeur (malgré des

principes et des pratiques d’édition hétérogènes).� par mi / parmi ; � ja mes / jamais, � sicom / si com

� Cas général : une unité graphique = une unité linguistique = une étiquette

� Mais quelques exceptions



� c) Unités graphiques et unités linguistiques : coïncidence non systématique� => Dissociation des unités graphiques et des unités linguistiques� Mais sans modifier la surface des textes : l’étiquetage opère sur des

unités linguistiques différentes des formes graphiques apparentes.

� i) fusion : regroupement de 2 formes graphiques pour leur associer une seule étiquette

� quel que lieu que et ambes II : traités comme une seule unité linguistique (difficiles à analyser séparément) : déterminant relatif et déterminant (ou adjectif ou pronom) cardinal.

� le dit = ledit : determinant défini composé� le quel (et ses composés) = lequel : déterminant ou pronom relatif

� Remarque : espace blanc et apostrophe font partie de la forme graphique.



� c) Unités graphiques et unités linguistiques : coïncidence non systématique� ii) segmentation d’1 unité graphique pour lui associer 2 étiquettes.

� parce : on segmente en par ce : préposition + pronom démonstratif� sil : segementation dans les cas où sil = s’il = se + il (versus enclise si + le) :

conjonction de sub + pro.perso.

� iii) formes contractées et étiquettes complexes : � Plus nombreuses et diversifiées qu’en français moderne ; � Phénomènes d’enclise et de proclise � Etiquette complexe : rend compte du caractère compositionnel/complexe de

la forme, en incluant la catégorie (et le type) des 2 composantes. � Par exemple : nel = ne + le (adverbe négatif + pronom personnel ->

ADVneg.PROper



� d) Pertinence des catégories de la grammaire moderne� Projeter sur la langue ancienne des catégories en

partie conçues pour la langue moderne (surtout en syntaxe), par des locuteurs modernes.

� Penser la langue ancienne avec la compétence de locuteur moderne.

� « Anachronisme » assumé



� e) impossibilité de recourir à l’intuition, passages ambigus ou inanalysables� Evolution diachronique avec phase de transition et indétermination

entre 2 valeurs (infra)� Cas d’indétermination synchronique :

� bien : nom commun ou adverbe ? � Je sui prest que je face voz volentez por quoi je voie que ce soit bien a fere

(qgraal)� Por lui fu ce bien quant vos por la dame l'empreïstes (qgraal)

� A noter que l’étiquette Adverbe est assez « large ».

� difficulté à analyser la portée d’une forme : � A s’espee tot le desmenbre (Beroul)

� Portée sur desmembre ou sur le ? � Principe de rattachement au « plus haut » => Circonstant


Annotation morphosyntaxique

� Élaboration d’un jeu d’étiquettes morpho-syntaxiques (Cattex2009)� 2 documents : principes d’annotation + manuel de

référence (voir biblio)� Jeu conçu pour une diachronie large : des catégories

apparaissent, d’autres diparaissent� Règles d’étiquetage constantes mais une unité

linguistique peut changer de valeur

� Etiquettes structurées en 2 champs : <catégorie> et <type>, avec 3 lettres par champ



� Cattex2009� Catégories : parties du discours : VER (verbe) ; NOM (nom) ;

ADJ (adjectif) ; PRO (pronom) ; DET (déterminant) ; ADV (adverbe) ; PRE (préposition) ; CON (conjonction) ; INJ (interjection)

� Autres catégories : PON (ponctuation) ; ETR (mot étranger) ; ABR (abréviation), RED (mot redondant)

� Types : sous-classes des catégories, s’il y a lieu (démonstratif, personnel, conjugué...)

� Exemples :� ‘de’ : <catégorie> = ‘PRE’ (préposition) � ‘chevalier’ : <catégorie> = ‘NOM’,

<type> = ‘com’ pour ‘commun’ => ‘NOMcom’


Annotation morphosyntaxique� Cattex2009



� Cattex2009� Formes contractées

� ‘nel’ : ADVneg.PROper (adverbe de négation + pronom personnel)

� Chaque champ de l’étiquette comporte une valeur et une seule : non traitement de l’ambiguïté.

� Mais ajout possible d’une seconde étiquette avec une autre valeur (voir infra)



� Etiquetage morphosyntaxique : � Les catégories et les types sont déterminés en contexte selon

des principes avant tout morphologiques.� Mais recours à des critères distributionnels pour déterminer plus

précisément la valeur des étiquettes. � Par exemple pour les démonstratifs, distinction entre emplois

‘déterminants’/ ‘pronoms’: � Et la damoisele torne cele part si tost come il sont pres (Graal)

[cele = DETdem]� Et cele dit que onques deseritee n' en fu (Graal) [cele = PROdem]

� Distinction entre les différentes valeurs s’appuie sur des critères morphosyntaxiques bien identifiés;

� Aucune des valeurs n’est plus essentielle à la forme que l’autre.



� Autres cas de polycatégorisation: � i) Evolution diachronique : chevauchement

possible de 2 valeurs. � Exemple de plaisir :

� Itels briefs enveieient al saint humme ultre mer, Plusurs altres asez, dunt rien ne sai conter, Pur mielz plaisir al rei e pur lur sens mustrer(Saint Thomas Becket, fin 12ème)

� Car ço n’est pas aumosne, s’il en fait sun plaisir : Quant l’a dunee a Deu , ne li puet retolir(Saint Thomas Becket, fin 12ème)



� Autres cas de polycatégorisation: � ii) Différentes valeurs selon les contextes

mais critères de distinction moins clairs.� Association à ces formes de la catégorie la plus

appropriée contextuellement.� ADJqua/ NOMcom: ami ; ennemi ; fel/felon ;

vassal ; ber/baron ...� NOMcom/ADVgen ou ADJqua : bien, mal, voir...



� Autres cas de polycatégorisation: � iii) Différentes valeurs possibles, mais qui ne sont pas toutes

enregistrées dans le lexique : une valeur morphologique de référence / autres valeurs ponctuelles.

� Et cele qui estoit la plus dame le menoit par la main et ploroit mout tendrement (graal),

� => Restitution de la double valeur : NOMcom et ADJqua, avec recours à 2 étiquettes : étiquette M (morphologique) + étiquette MS (morphosyntaxique).

� Principaux changements de catégorie : � NOMcom <->ADJqua� VERinf > NOMcom� ADJqua > ADVgen� VERppe/VERppa > ADJqua / NOMcom



� Autres cas de polycatégorisation: � iv) Traitement complexe des infinitifs :

� A cel encontrer furent toutes lances brisiees (Queste del Saint Graal),

� Présence du déterminant démonstratif => MS = NOMcom. � A l’inverse, la présence d’un complément favorise

l’interprétation ‘infinitif’. � Mais 2 cas difficiles :

� Ore dist li contes que a heure de disner , quant les tables... (Merlin, début. 13ème ) ,

� Ostes, ja fustes vous compaing, Puisque che vient au dire voir(Bodel, Jeu de Saint Nicolas, fin 12ème)



� Autres cas de polycatégorisation: �v) Changement de catégorie sans

changement de contexte : � om ( (l’)on, (l’) om,(l’)en, hom…) :

NOMcom > PROind


Étiquetage morphosyntaxique de la BFM (‘workflow’)

Texte édité (Word…)

Texte balisé XML-TEI

TXM

Texte tokenisé

TreeTagger

corpus d’apprentissage

modèle linguistique

Texte étiqueté autoExcel, Calc, SATO

Vérification Texte étiqueté vérifié

Concordances, index, cooccurrences, graphes…


Plateforme TXM (architecture)

Web

Windows, Linux, (Mac)


Plateforme TXM (Interface)

� Locale(RCP)


Plateforme TXM (Interface)

� Web(GWT)

� http://txm.risc.cnrs.fr/bfm (tests en cours) Messages

Explorateur Résultats


Importation de corpus dans TXM

� Préparation des textes et des métadonnées� Paramétrage du script

� plusieurs scripts disponibles selon le format des textes� Lancement d’importation

� tokenisation� étiquetage par le TreeTagger� construction d’index CWB

� structures, formes, propriétés� génération d’édition

� On peut « charger » un corpus pré-compilé (« binaire »)� On peut importer des textes déjà tokenisés et étiquetés. On peut

dans ce cas comparer l’étiquetage automatique et manuel


Préparation des textes

� Texte « brut » ou balisé ?� Balisage XML-TEI

� métadonnées (descripteurs) � teiHeader� références (pages, vers…) � milestone� structures (divisions, paragraphes, strophes)� discours direct � q� mots ou phrases en langue étrangère� marques éditoriales

� corrections, ajouts� résolutions d’abréviations� notes

� voir fichier : /ea2011_ancienfrancais/preparation/qgraalcma.xml



� Tokenisation <w>� caractères séparateurs (blanc, ponctuations…)� balises

� hors-texte (<note>, <biblio>…)� ≥ 1 mot (<p>, <foreign>, <name>…)� = 1 mot (<abbr>, <expan>, <num>…)� ≤ 1 mot (<g>, <ex>)� « flottantes » (<supplied>, <del>)

� mots composés� locutions en cours de figement

� par-mi, ja-mais…



� Délimitation de phrases graphiques <s>� importante pour l’efficacité des outils de TAL�ponctuations fortes

� sauf les points d’abréviations, chiffres (.ii.)

�balises de structure textuelle � <p>, <title>, <q>, <sp>� problème des vers/strophes <lg>/<l> � <ab>/<lb/>

�problèmes des balises « flottantes »



� Outils d’édition XML�Oxygen

� validation immédiate� raccourcis clavier� plusieurs moteurs de transformation XSL� recherche/remplacement d’expressions régulières� diff



� Outils de tokenisation� fonction tokenize() en XSLT2

� ne gère pas les balises à l’intérieur des mots� tokeniseur du TreeTagger

� fonctionne sur texte brut� paramétrable pour une langue

� aujourd’hui, parce que, fait-il vs. arc-en-ciel

� tokeniseur de la BFM� intégré dans TXM� classes de balises paramétrables� les balises à l’intérieur des mots doivent être « pré-traitées »

� <w>qua<supplied>n</supplied>t</w>


Étiquetage morphosyntaxique

� Tree Tagger� Logiciel d’étiquetage et de lemmatisation statistique développé à l’IMS

de Stuttgart (resp. Helmut Schmid)� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

� Utilisation libre pour l’enseignement et la recherche� usage commercial interdit� redistribution soumise à un accord préalable

� Pas d’interface graphique utilisateur� Les modèles linguistiques (*.par) peuvent être téléchargés sur le site de

l’IMS ou fabriqués à partir d’un corpus annoté� apprentissage sur un corpus annoté

� texte annoté (forme�etiquette�lemme) ~ TXM : concordance sans contextes� lexique (forme�etiquette1�lemme1�etiquette2�lemme2…) ~ TXM : index� paramètres (classes ouvertes…)



� Tree Tagger et TXM�s’installe indépendamment (licence)�modèle(s) linguistique(s) (*.par)

� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/(cas général)

� BFM : rgaqcj.par (6 textes), fro.par (14 textes)

� intégré dans le script d’import BFM� fropos= et rgaqcjpos=� pas de lemmatisation



� Vérification de l’annotation� export d’une concordance vers un tableur (format

.csv)� requête : [], � contexte : 0 à gauche et à droite� pivot : word_fropos_rgaqcjpos� référence : id_ref

� relecture et correction� « ré-injection » des résultats vers le fichier TEI-TXM

� scripts groovy ou perl� ré-importation du texte étiqueté



� Vérification de l’annotation (Excel)



� Vérification de l’annotation (SATO)� logiciel en ligne http://ling.uqam.ca/sato�corpus personnels

� possibilité de partage

� import et export par copier-coller�possibilité d’annotation à base de règles�moins pratique pour la vérification de

l’annotation morphosyntaxique


Exploitation d’un corpus étiqueté

� CQL� langage de requêtes sur corpus implémenté par la technologie IMS Open

Corpus Workbench http://cwb.sourceforge.net� intro rapide : Manuel TXM (section 5) :

http://textometrie.sourceforge.net/doc/refman/ManueldeReferenceTXM0.5_FR.xhtml� référence complète :

http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML

� Interrogation avec TXM� Vocabulaire des étiquettes� Concordandces : requêtes sur des étiquettes

� [pos="CONsub"]� export pour la vérification des étiquettes

� Index et concordances : requêtes croisées forme/étiquette� [word="[Ss]e" & pos="CONsub"]

� Spécificité des étiquettes� partition DD / non DD (Guillot&al à par.)


Annotation syntaxique

� Modèle linguistique SRCMF� syntaxe dépendancielle (Tesnière, Mel’čuk)� catégories hiérarchisées� utilisation de catégories sous-déterminées en cas

d’ambigüité� e.g. ‘Régime’ pour les constuctions infinitives

� rattachement « au plus haut » en cas de doute� 1 verbe principal = 1 phrase



� Workflow projet SRCMF� sélection et préparation d’un texte� annotation indépendante par 2 experts� comparaison� élimination d’erreurs, discussion sur les points

difficiles� vérification et validation par les chefs du projet� export et interrogation avec TigerSearch



� Préparation du texte� tokenisation (chaque mot doit avoir un @id)�découpage en tranches de 2000 tokens

� pour des raisons de performance� se fait avec un script perl qui utilise une feuille de

style XSL

�édition d’un projet NotaBene� via l’interface NotaBene� ou directement au format .xml



� Logiciel NotaBene� http://notabene.sourceforge.net/� conçu et développé par N. Mazziotta� utilise le format RDF (graphes)� destiné à un usage générique, mais développé

surtout pour l’annotation syntaxique dans le cadre du projet SRCMF

� ontologie SRCMF� comparaison d’annotations� export vers TigerSeach



� Interrogation avec TigerSearch� http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/ � logiciel open-source, n’est plus développé, mais reste utilisable

� Tiger-XML� Format flexible pour l’annotation d’arbres syntaxiques� 2 types d’éléments

� nœuds terminaux (feuilles)� éléments non terminaux

� Structure de l’arbre� les nœuds terminaux sont des mots (tokens), ils ont un ordre linéaire� toute autre structure est un élément non terminal� les éléments non terminaux peuvent être discontinus� chaque élément peut avoir un seul parent



� Requête TigerSearch



� Graphe TigerSearch


Merci !

Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ......

Documents

Transcript of Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ......