Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ......
Transcript of Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ......
Annotation du français médiévalmorphosyntaxe et syntaxe
Alexei Lavrentiev , Sophie Prévost
Lattice, ICAR
Ecole thématique « Annotation de données langagières »Biarritz, 10-16 septembre 2011
Ecole thématique « annotation de données langagières »
Plan
� Présentation� Contexte : Projets de corpus et de recherches� Problèmes spécifiques d’annotation du français médiéval� Étiquetage morphosyntaxique : outils et procédure BFM� (Annotation syntaxique : outils et procédure SRCMF)?
� Atelier� Installation des outils
� TXM & TreeTagger� et/ou NotaBene & Tiger Search
� Manipulation des outils d’annotation� Exploitation d’un corpus annoté
Ecole thématique « annotation de données langagières »
Projets
� Morpho MultiDim�Projet ILF, dir. Serge Heiden, ENS Lyon,
2006-2008.�Etiquetage morpho-syntaxique de textes de
français médiéval dans un cadre multidimensionnel (avec prise en compte des types de textes)
Ecole thématique « annotation de données langagières »
Projets
� CoRPTeF - Corpus représentatif des premiers textes français � Projet ANR, dir. Céline Guillot, ENS Lyon, 2008-2010� http://corptef.ens-lyon.fr/� Elaboration d’un corpus de référence pour le très
ancien français (du IXe au XIIe siècle) : représentatif sur les plans qualitatif et quantitatif pour permettre des recherches sur le très ancien français.
� 47 textes (+ d’1 million de mots) ; corpus exhaustif pour la période antérieure à 1100.
� Plusieurs textes étiquetés morpho-syntaxiquement
Ecole thématique « annotation de données langagières »
Projets
� SRCMF - Syntactic Reference Corpus of Medieval French � Projet ANR-DFG franco-allemand, dir. Achim Stein et Sophie
Prévost, 2009-2011� https://listes.cru.fr/wiki/srcmf/� Annotation syntaxique d’un corpus de français médiéval� Annotation syntaxique manuelle (modèle de type dépendantiel). � Etiquetage morpho-syntaxique automatique avec vérification
manuelle.� 18 textes, 351 000 mots
Ecole thématique « annotation de données langagières »
Projets
� GGHF - Grande Grammaire Historique du Français � dir. Ch. Marchello-Nizia, B. Combettes, T. Scheer et
S. Prévost, 2008-� Projet de grammaire historique qui s’appuie sur un
corpus pour l’ensemble des siècles. � Pour la période ancien français, l’ensemble des
textes bénéficie de l’étiquetage morpho-syntaxiqueréalisé dans le cadre des deux autres projets, et certains bénéficient de l’annotation réalisée dans SRCMF.
Ecole thématique « annotation de données langagières »
Projets
� Au centre des projets : la Base de Français Médiéval(BFM)� http://bfm.ens-lyon.fr/� Les 4 projets précédents s’appuient sur des textes de la BFM
(lancée en 1989 par Ch. Marchello-Nizia)� Direction : C. Guillot, gestion : A. Lavrentiev� 26 textes (environ 1 500 000) / 80 textes (plus de 3 millions de
mots) du 9ème au 15ème siècle� Projet d’étiquetage morpho-syntaxique des textes de la BFM
lancé en 2001, puis développé dans le cadre des différents projets
� Interactions entre les projets : � mutualisation partielle des textes
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� Pas de compétence et pas de recours possible à des informateurs
� Pas d’accès à l’oral « oralisé »
� Authenticité des données : travail sur édition ou sur manuscrit � Travail d’enrichissement plutôt sur des textes édités (versus manuscrit)� Choix d’éditions peu interventionnistes� Edition numérique de la Quête du Graal
� Deux points communs entre Langue ancienne et Oral moderne :� variation� segmentation
� Remarque : la variation opère en diachronie, mais aussi en synchronie
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� a) Forte variation graphique et morphologique : problème pour les outils de TAL� Variation d’un texte à l’autre :
� fet/fait � aviiens, avïens, aviens, aviions, avyons,� molt, mult, mout, moult: propos, propoz, propost, propous, proppoz,
proupoz, propotz, propoux, propox� mais aussi dans un même texte (Quinze joyes de Mariage, deb.
15ème):� auxi, aussi, aussy
� Variation accrue par l’existence d’une déclinaison casuelle: � cils, cilz / cels, celz, ceulx, ceus, ceuz, ceux, ceulz,ceuls.
� Apport précieux de la lemmatisation, quand elle existe
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� b) Souplesse de l’ordre des mots : �Position des pronoms personnels clitiques,
position pré- ou postverbale du sujet , ...
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� c) Unités graphiques et unités linguistiques : coïncidence non systématique� Etiquetage et segmentation en mots des textes de la BFM s’opèrent sur
la forme de surface des textes telle que définie par l’éditeur scientifique. � => Respect des segmentations (et graphies) de l’éditeur (malgré des
principes et des pratiques d’édition hétérogènes).� par mi / parmi ; � ja mes / jamais, � sicom / si com
� Cas général : une unité graphique = une unité linguistique = une étiquette
� Mais quelques exceptions
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� c) Unités graphiques et unités linguistiques : coïncidence non systématique� => Dissociation des unités graphiques et des unités linguistiques� Mais sans modifier la surface des textes : l’étiquetage opère sur des
unités linguistiques différentes des formes graphiques apparentes.
� i) fusion : regroupement de 2 formes graphiques pour leur associer une seule étiquette
� quel que lieu que et ambes II : traités comme une seule unité linguistique (difficiles à analyser séparément) : déterminant relatif et déterminant (ou adjectif ou pronom) cardinal.
� le dit = ledit : determinant défini composé� le quel (et ses composés) = lequel : déterminant ou pronom relatif
� Remarque : espace blanc et apostrophe font partie de la forme graphique.
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� c) Unités graphiques et unités linguistiques : coïncidence non systématique� ii) segmentation d’1 unité graphique pour lui associer 2 étiquettes.
� parce : on segmente en par ce : préposition + pronom démonstratif� sil : segementation dans les cas où sil = s’il = se + il (versus enclise si + le) :
conjonction de sub + pro.perso.
� iii) formes contractées et étiquettes complexes : � Plus nombreuses et diversifiées qu’en français moderne ; � Phénomènes d’enclise et de proclise � Etiquette complexe : rend compte du caractère compositionnel/complexe de
la forme, en incluant la catégorie (et le type) des 2 composantes. � Par exemple : nel = ne + le (adverbe négatif + pronom personnel ->
ADVneg.PROper
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� d) Pertinence des catégories de la grammaire moderne� Projeter sur la langue ancienne des catégories en
partie conçues pour la langue moderne (surtout en syntaxe), par des locuteurs modernes.
� Penser la langue ancienne avec la compétence de locuteur moderne.
� « Anachronisme » assumé
Ecole thématique « annotation de données langagières »
Problèmes d’annotation du français médiéval
� e) impossibilité de recourir à l’intuition, passages ambigus ou inanalysables� Evolution diachronique avec phase de transition et indétermination
entre 2 valeurs (infra)� Cas d’indétermination synchronique :
� bien : nom commun ou adverbe ? � Je sui prest que je face voz volentez por quoi je voie que ce soit bien a fere
(qgraal)� Por lui fu ce bien quant vos por la dame l'empreïstes (qgraal)
� A noter que l’étiquette Adverbe est assez « large ».
� difficulté à analyser la portée d’une forme : � A s’espee tot le desmenbre (Beroul)
� Portée sur desmembre ou sur le ? � Principe de rattachement au « plus haut » => Circonstant
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Élaboration d’un jeu d’étiquettes morpho-syntaxiques (Cattex2009)� 2 documents : principes d’annotation + manuel de
référence (voir biblio)� Jeu conçu pour une diachronie large : des catégories
apparaissent, d’autres diparaissent� Règles d’étiquetage constantes mais une unité
linguistique peut changer de valeur
� Etiquettes structurées en 2 champs : <catégorie> et <type>, avec 3 lettres par champ
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Cattex2009� Catégories : parties du discours : VER (verbe) ; NOM (nom) ;
ADJ (adjectif) ; PRO (pronom) ; DET (déterminant) ; ADV (adverbe) ; PRE (préposition) ; CON (conjonction) ; INJ (interjection)
� Autres catégories : PON (ponctuation) ; ETR (mot étranger) ; ABR (abréviation), RED (mot redondant)
� Types : sous-classes des catégories, s’il y a lieu (démonstratif, personnel, conjugué...)
� Exemples :� ‘de’ : <catégorie> = ‘PRE’ (préposition) � ‘chevalier’ : <catégorie> = ‘NOM’,
<type> = ‘com’ pour ‘commun’ => ‘NOMcom’
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique� Cattex2009
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Cattex2009� Formes contractées
� ‘nel’ : ADVneg.PROper (adverbe de négation + pronom personnel)
� Chaque champ de l’étiquette comporte une valeur et une seule : non traitement de l’ambiguïté.
� Mais ajout possible d’une seconde étiquette avec une autre valeur (voir infra)
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Etiquetage morphosyntaxique : � Les catégories et les types sont déterminés en contexte selon
des principes avant tout morphologiques.� Mais recours à des critères distributionnels pour déterminer plus
précisément la valeur des étiquettes. � Par exemple pour les démonstratifs, distinction entre emplois
‘déterminants’/ ‘pronoms’: � Et la damoisele torne cele part si tost come il sont pres (Graal)
[cele = DETdem]� Et cele dit que onques deseritee n' en fu (Graal) [cele = PROdem]
� Distinction entre les différentes valeurs s’appuie sur des critères morphosyntaxiques bien identifiés;
� Aucune des valeurs n’est plus essentielle à la forme que l’autre.
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Autres cas de polycatégorisation: � i) Evolution diachronique : chevauchement
possible de 2 valeurs. � Exemple de plaisir :
� Itels briefs enveieient al saint humme ultre mer, Plusurs altres asez, dunt rien ne sai conter, Pur mielz plaisir al rei e pur lur sens mustrer(Saint Thomas Becket, fin 12ème)
� Car ço n’est pas aumosne, s’il en fait sun plaisir : Quant l’a dunee a Deu , ne li puet retolir(Saint Thomas Becket, fin 12ème)
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Autres cas de polycatégorisation: � ii) Différentes valeurs selon les contextes
mais critères de distinction moins clairs.� Association à ces formes de la catégorie la plus
appropriée contextuellement.� ADJqua/ NOMcom: ami ; ennemi ; fel/felon ;
vassal ; ber/baron ...� NOMcom/ADVgen ou ADJqua : bien, mal, voir...
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Autres cas de polycatégorisation: � iii) Différentes valeurs possibles, mais qui ne sont pas toutes
enregistrées dans le lexique : une valeur morphologique de référence / autres valeurs ponctuelles.
� Et cele qui estoit la plus dame le menoit par la main et ploroit mout tendrement (graal),
� => Restitution de la double valeur : NOMcom et ADJqua, avec recours à 2 étiquettes : étiquette M (morphologique) + étiquette MS (morphosyntaxique).
� Principaux changements de catégorie : � NOMcom <->ADJqua� VERinf > NOMcom� ADJqua > ADVgen� VERppe/VERppa > ADJqua / NOMcom
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Autres cas de polycatégorisation: � iv) Traitement complexe des infinitifs :
� A cel encontrer furent toutes lances brisiees (Queste del Saint Graal),
� Présence du déterminant démonstratif => MS = NOMcom. � A l’inverse, la présence d’un complément favorise
l’interprétation ‘infinitif’. � Mais 2 cas difficiles :
� Ore dist li contes que a heure de disner , quant les tables... (Merlin, début. 13ème ) ,
� Ostes, ja fustes vous compaing, Puisque che vient au dire voir(Bodel, Jeu de Saint Nicolas, fin 12ème)
Ecole thématique « annotation de données langagières »
Annotation morphosyntaxique
� Autres cas de polycatégorisation: �v) Changement de catégorie sans
changement de contexte : � om ( (l’)on, (l’) om,(l’)en, hom…) :
NOMcom > PROind
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique de la BFM (‘workflow’)
Texte édité (Word…)
Texte balisé XML-TEI
TXM
Texte tokenisé
TreeTagger
corpus d’apprentissage
modèle linguistique
Texte étiqueté autoExcel, Calc, SATO
Vérification Texte étiqueté vérifié
Concordances, index, cooccurrences, graphes…
Ecole thématique « annotation de données langagières »
Plateforme TXM (architecture)
Web
Windows, Linux, (Mac)
Ecole thématique « annotation de données langagières »
Plateforme TXM (Interface)
� Locale(RCP)
Ecole thématique « annotation de données langagières »
Plateforme TXM (Interface)
� Web(GWT)
� http://txm.risc.cnrs.fr/bfm (tests en cours) Messages
Explorateur Résultats
Ecole thématique « annotation de données langagières »
Importation de corpus dans TXM
� Préparation des textes et des métadonnées� Paramétrage du script
� plusieurs scripts disponibles selon le format des textes� Lancement d’importation
� tokenisation� étiquetage par le TreeTagger� construction d’index CWB
� structures, formes, propriétés� génération d’édition
� On peut « charger » un corpus pré-compilé (« binaire »)� On peut importer des textes déjà tokenisés et étiquetés. On peut
dans ce cas comparer l’étiquetage automatique et manuel
Ecole thématique « annotation de données langagières »
Préparation des textes
� Texte « brut » ou balisé ?� Balisage XML-TEI
� métadonnées (descripteurs) � teiHeader� références (pages, vers…) � milestone� structures (divisions, paragraphes, strophes)� discours direct � q� mots ou phrases en langue étrangère� marques éditoriales
� corrections, ajouts� résolutions d’abréviations� notes
� voir fichier : /ea2011_ancienfrancais/preparation/qgraalcma.xml
Ecole thématique « annotation de données langagières »
Préparation des textes
� Tokenisation <w>� caractères séparateurs (blanc, ponctuations…)� balises
� hors-texte (<note>, <biblio>…)� ≥ 1 mot (<p>, <foreign>, <name>…)� = 1 mot (<abbr>, <expan>, <num>…)� ≤ 1 mot (<g>, <ex>)� « flottantes » (<supplied>, <del>)
� mots composés� locutions en cours de figement
� par-mi, ja-mais…
Ecole thématique « annotation de données langagières »
Préparation des textes
� Délimitation de phrases graphiques <s>� importante pour l’efficacité des outils de TAL�ponctuations fortes
� sauf les points d’abréviations, chiffres (.ii.)
�balises de structure textuelle � <p>, <title>, <q>, <sp>� problème des vers/strophes <lg>/<l> � <ab>/<lb/>
�problèmes des balises « flottantes »
Ecole thématique « annotation de données langagières »
Préparation des textes
� Outils d’édition XML�Oxygen
� validation immédiate� raccourcis clavier� plusieurs moteurs de transformation XSL� recherche/remplacement d’expressions régulières� diff
Ecole thématique « annotation de données langagières »
Préparation des textes
� Outils de tokenisation� fonction tokenize() en XSLT2
� ne gère pas les balises à l’intérieur des mots� tokeniseur du TreeTagger
� fonctionne sur texte brut� paramétrable pour une langue
� aujourd’hui, parce que, fait-il vs. arc-en-ciel
� tokeniseur de la BFM� intégré dans TXM� classes de balises paramétrables� les balises à l’intérieur des mots doivent être « pré-traitées »
� <w>qua<supplied>n</supplied>t</w>
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique
� Tree Tagger� Logiciel d’étiquetage et de lemmatisation statistique développé à l’IMS
de Stuttgart (resp. Helmut Schmid)� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
� Utilisation libre pour l’enseignement et la recherche� usage commercial interdit� redistribution soumise à un accord préalable
� Pas d’interface graphique utilisateur� Les modèles linguistiques (*.par) peuvent être téléchargés sur le site de
l’IMS ou fabriqués à partir d’un corpus annoté� apprentissage sur un corpus annoté
� texte annoté (forme�etiquette�lemme) ~ TXM : concordance sans contextes� lexique (forme�etiquette1�lemme1�etiquette2�lemme2…) ~ TXM : index� paramètres (classes ouvertes…)
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique
� Tree Tagger et TXM�s’installe indépendamment (licence)�modèle(s) linguistique(s) (*.par)
� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/(cas général)
� BFM : rgaqcj.par (6 textes), fro.par (14 textes)
� intégré dans le script d’import BFM� fropos= et rgaqcjpos=� pas de lemmatisation
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique
� Vérification de l’annotation� export d’une concordance vers un tableur (format
.csv)� requête : [], � contexte : 0 à gauche et à droite� pivot : word_fropos_rgaqcjpos� référence : id_ref
� relecture et correction� « ré-injection » des résultats vers le fichier TEI-TXM
� scripts groovy ou perl� ré-importation du texte étiqueté
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique
� Vérification de l’annotation (Excel)
Ecole thématique « annotation de données langagières »
Étiquetage morphosyntaxique
� Vérification de l’annotation (SATO)� logiciel en ligne http://ling.uqam.ca/sato�corpus personnels
� possibilité de partage
� import et export par copier-coller�possibilité d’annotation à base de règles�moins pratique pour la vérification de
l’annotation morphosyntaxique
Ecole thématique « annotation de données langagières »
Exploitation d’un corpus étiqueté
� CQL� langage de requêtes sur corpus implémenté par la technologie IMS Open
Corpus Workbench http://cwb.sourceforge.net� intro rapide : Manuel TXM (section 5) :
http://textometrie.sourceforge.net/doc/refman/ManueldeReferenceTXM0.5_FR.xhtml� référence complète :
http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML
� Interrogation avec TXM� Vocabulaire des étiquettes� Concordandces : requêtes sur des étiquettes
� [pos="CONsub"]� export pour la vérification des étiquettes
� Index et concordances : requêtes croisées forme/étiquette� [word="[Ss]e" & pos="CONsub"]
� Spécificité des étiquettes� partition DD / non DD (Guillot&al à par.)
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Modèle linguistique SRCMF� syntaxe dépendancielle (Tesnière, Mel’čuk)� catégories hiérarchisées� utilisation de catégories sous-déterminées en cas
d’ambigüité� e.g. ‘Régime’ pour les constuctions infinitives
� rattachement « au plus haut » en cas de doute� 1 verbe principal = 1 phrase
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Workflow projet SRCMF� sélection et préparation d’un texte� annotation indépendante par 2 experts� comparaison� élimination d’erreurs, discussion sur les points
difficiles� vérification et validation par les chefs du projet� export et interrogation avec TigerSearch
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Préparation du texte� tokenisation (chaque mot doit avoir un @id)�découpage en tranches de 2000 tokens
� pour des raisons de performance� se fait avec un script perl qui utilise une feuille de
style XSL
�édition d’un projet NotaBene� via l’interface NotaBene� ou directement au format .xml
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Logiciel NotaBene� http://notabene.sourceforge.net/� conçu et développé par N. Mazziotta� utilise le format RDF (graphes)� destiné à un usage générique, mais développé
surtout pour l’annotation syntaxique dans le cadre du projet SRCMF
� ontologie SRCMF� comparaison d’annotations� export vers TigerSeach
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Interrogation avec TigerSearch� http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/ � logiciel open-source, n’est plus développé, mais reste utilisable
� Tiger-XML� Format flexible pour l’annotation d’arbres syntaxiques� 2 types d’éléments
� nœuds terminaux (feuilles)� éléments non terminaux
� Structure de l’arbre� les nœuds terminaux sont des mots (tokens), ils ont un ordre linéaire� toute autre structure est un élément non terminal� les éléments non terminaux peuvent être discontinus� chaque élément peut avoir un seul parent
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Requête TigerSearch
Ecole thématique « annotation de données langagières »
Annotation syntaxique
� Graphe TigerSearch
Ecole thématique « annotation de données langagières »
Merci !