Département des Études romanes Différences lexicales des ...
Ressources lexicales et grammaticales pour le russe
description
Transcript of Ressources lexicales et grammaticales pour le russe
11
Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe
Semaine NOOJ Semaine NOOJ Inalco Inalco
22 janvier 201322 janvier 2013
Vincent BÉNETCREE
Centre de Recherches Europes-EurasieRecherche assistée par ordinateur
Dictionnaires et grammaires Dictionnaires et grammaires pour le russepour le russe
pour le logiciel Nooj pour le logiciel Nooj de Max Silberzteinde Max Silberztein
22
Etat des lieux sur les ressources pour le russeEtat des lieux sur les ressources pour le russe
Principes de conception du dictionnairePrincipes de conception du dictionnaire
Descriptif de la réalisationDescriptif de la réalisation
Principes de conception des grammairesPrincipes de conception des grammaires
Conception et réalisation de dictionnaire et grammaire Conception et réalisation de dictionnaire et grammaire pour le russe pour le logiciel Nooj pour le russe pour le logiciel Nooj
de Max Silberzteinde Max Silberztein
33
Historique des ressources existantes en russeHistorique des ressources existantes en russe
CORPUS RUSSES ACTUELSCORPUS RUSSES ACTUELS
AVEC RECHERCHE D’OCCURRENCES AVEC RECHERCHE D’OCCURRENCES 2000-20132000-2013
La bibliothèque de MoshkovLa bibliothèque de Moshkov
http://lib.ruhttp://lib.ru
Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru
Le corpus national de la langue russeLe corpus national de la langue russe
http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Le corpus national de la langue littéraire* Le corpus national de la langue littéraire* russerusse
http://www.narusco.ruhttp://www.narusco.ru
44
Corpus de textes russesCorpus de textes russes
Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru
•1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs)
•Corpus de textes de journaux (années 1991-2000)
•Dictionnaires
•avec logiciel intégré de recherche d’occurrences
55
Computer Fund of Russian languageComputer Fund of Russian language http://cfrl.ruhttp://cfrl.ru
66
Corpus national russeCorpus national russe http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Échantillon « représentatif » de la langue russe
50 000 textes
150 000 000 mots
Corpus de 5 000 000 formes étiquetées et désambiguïsées
avec recherche d’occurences
77
National corpus of russian languageNational corpus of russian language http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Recherche dans le corpus : par sous-corpusRecherche dans le corpus : par sous-corpus Recherche par morphosyntaxe ou sémantiqueRecherche par morphosyntaxe ou sémantique
88
Corpus national russeCorpus national russe http://www.ruscorpora.ruhttp://www.ruscorpora.ru
99
Corpus national de la langue ‘littéraire’ russeCorpus national de la langue ‘littéraire’ russe
http://www.narusco.ruhttp://www.narusco.ru
Textes Textes de la langue de la langue
russe écrite russe écrite et orale et orale
depuis 1950depuis 1950
1010
Corpus de textes russesCorpus de textes russesLa Bibliothèque de MoshkovLa Bibliothèque de Moshkov
http://http://lib.rulib.ru
1111
Historique des ressources existantes en russeHistorique des ressources existantes en russe
LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS
pour la langue russe pour la langue russe 1980-20001980-2000
UNITEXUNITEX
avec un corpus d’environ 100 avec un corpus d’environ 100 pages pages
( Le joueur de Dostoevski)( Le joueur de Dostoevski)
et un dictionnaire de 9000 et un dictionnaire de 9000 mots correspondant au mots correspondant au
vocabulaire russe du textevocabulaire russe du texte
1212
Historique des ressources existantes en russeHistorique des ressources existantes en russe
DICTIONNAIRE ELECTRONIQUEDICTIONNAIRE ELECTRONIQUE
pour la langue russe pour la langue russe
dictionnaire grammatical de dictionnaire grammatical de ZALIZNIAK ZALIZNIAK
96 000 entrées avec codage 96 000 entrées avec codage morphosyntaxique morphosyntaxique
------------
Version en ligneVersion en ligne : :conjugueur-déclineur de STARLINGconjugueur-déclineur de STARLING
http://starling.rinet.ru/cgi-bin/http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnmorphque.cgi?flags=endnnnn
1313
Historique des ressources existantes en russeHistorique des ressources existantes en russe
conjugueur-déclineur de STARLINGconjugueur-déclineur de STARLINGhttp://starling.rinet.ru/cgi-bin/http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnmorphque.cgi?flags=endnnnn
1414
Ressources russes :Ressources russes :dictionnaire de Zaliznjakdictionnaire de Zaliznjak
Version papier du dictionnaire:
Ordre alphabétique inverse
Notation grammaticale:
Étiquette + modèle flexionnel+ particularité(s)
1515
Ressources russes :Ressources russes :dictionnaire de Zaliznjak ( version électronique)dictionnaire de Zaliznjak ( version électronique)
1616
IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS
Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées
Problème du codage utilisé полный п 1*а/б // 1*a/cbasé sur l’accent de motcomplété d’annotations inutilisables Nettoyage et « rationalisation »
Constituer des ressources en russe pour NoojConstituer des ressources en russe pour Nooj
1717
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
1.1. constituer un dictionnaire ( pb accent et pb constituer un dictionnaire ( pb accent et pb ë) ë)
2. créer un jeu d’étiquettes « créer un jeu d’étiquettes « lisibles »lisibles » 3. recoder le dictionnaire avec ces 3. recoder le dictionnaire avec ces étiquettesétiquettes
4. établir la liste des modèles types , écrire les établir la liste des modèles types , écrire les paradigmesparadigmes et et affecter les modèles aux mots du affecter les modèles aux mots du dictionnairedictionnaire 5. vérifier le paradigme,vérifier le paradigme, tester avec des textes tester avec des textes etet corriger les erreurscorriger les erreurs
1818
1. constituer un dictionnaire
4 dictionnaires compilés en un seul « ru_morph »4 dictionnaires compilés en un seul « ru_morph »
ru_a # adjectifs ru_a # adjectifs
ru_n # substantifsru_n # substantifs
ru_v # verbesru_v # verbes
ru_o #ru_o #
o comprend les prépositions, les particules, les pronoms, les mots-o comprend les prépositions, les particules, les pronoms, les mots-outils, les numérauxoutils, les numéraux
Deux dictionnaires additionnels:Deux dictionnaires additionnels:
ru_p (noms propres)ru_p (noms propres)
ru_as (adjectifs substantivés)ru_as (adjectifs substantivés)
.dic = liste de mots et .nof = pararadigmes.dic = liste de mots et .nof = pararadigmes
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
1919
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
problème du ë / e (non résolu à ce jour par
l’Académie de Russie)
сестра сёстры / sestra sëstry (sestry) сестры : notation imprimerie livres et journaux се: стры : notation du dictionnaire
problème de l’accent (jamais noté):
Гóрод городá gorod goroda Г<ород город<а : notation du dictionnaire
2020
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ;
ADV_Deg = Comp; ADV_Sem = Tps | Loc | Modal;
N_Genre = m | f | n ;N_SGenr = an | inan ;N_Nombre = s | p;N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ;
2. créer un jeu d’étiquettes « lisibles » properties.def
V_Pers = 1 | 2 | 3 ;V_Asp = Ipf | Pf ;V_Type = Mvt ;V_Morph = Pvb | Simp | Sufx | PvbSufx ;V_SsAsp = Det | Indet ;V_Temps = Pre | Pa | Fu ;V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ;V_Voix = Act | Pss ;V_Genre = m | f | n ;V_Nombre = s | p ;V_Constr = intr | tr | sja ;V_Cas = Im | Vi | Ro | Da | Tv | Pr ;
2121
Dictionnaire russe pour NoojDictionnaire russe pour Nooj3.recoder le dictionnaire avec ces étiquettes
2222
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
3.recoder le dictionnaire avec ces étiquettesабиссинец,N+m+an+FLX=украинецабитуриент,N+m+an+FLX=артистаблятив,N+m+inan+FLX=заводабляут,N+m+inan+FLX=заводаболиционизм,N+m+inan+FLX=заводаболиционист,N+m+an+FLX=артистабонемент,N+m+inan+FLX=заводабонент,N+m+an+FLX=артист
abažur,N+m+inan+FLX=zavodabazinec,N+m+an+FLX=ukrainecabazin,N+m+an+FLX=artistabaz,N+m+inan+FLX=zavodabak,N+m+inan+FLX=čajnikabbat,N+m+an+FLX=artist
2323
#j1a=karta#jo1a=korova#j2a=nedelja#jo2a=boginja#j3a=kniga#jo3a=sobaka#j4a=tuča#jo4a=kassirša#j5a=ulica#jo5a=volčica#j6a=statuja#jo6a=feja#j7a=linija#jo7a=furija
4. établir la liste des modèles types
карта = <E>/Im+s + <B>у/Vi+s + <B>ы/Ro+s + <B>е/Da+s + <B>ой/Tv+s + <B>е/Pr+s + <B>ы/Im+p + <B>ы/Vi+p + <B>/Ro+p + <B>ам/Da+p + <B>ами/Tv+p + <B>ах/Pr+p ;
écrire les paradigmes
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
2424
читать = <E>/Inf | <B2>ю/1+s+Pre | <B2>ешь/2+s+Pre | <B2>ет/3+s+Pre | <B2>ем/1+p+Pre | <B2>ете/2+p+Pre | <B2>ют/3+p+Pre | <B2>л/m+s+Pa | <B2>ла/f+s+Pa | <B2>ло/n+s+Pa | <B2>ли/p+Pa | <B2>й/2+s+Imp | <B2>йте/2+p+Imp | <B2>я/Ger | <B2>ющий/Prtp+Pre+Act+m+s+Im | <B2>ющий/Prtp+Pre+Act+m+s+Vi | <B2>ющего/Prtp+Pre+Act+m+an+s+Vi | … <B2>вший/Prtp+Pa+Act+m+s+Im | <B2>вший/Prtp+Pa+Act+m+s+Vi | <B2>вшего/Prtp+Pa+Act+m+an+s+Vi | <B2>вшего/Prtp+Pa+Act+m+s+Ro | … <B2>емый/Prtp+Pre+Pss+m+s+Im | <B2>емый/Prtp+Pre+Pss+m+s+Vi | … | <B2>ем/Prtp+Pre+Pss+m+fc | <B2>ема/Prtp+Pre+Pss+f+fc | …
прочитать = <E>/Inf | <B2>ю/1+s+Pre+Fu | <B2>ешь/2+s+Pre+Fu | <B2>ет/3+s+Pre+Fu | <B2>ем/1+p+Pre+Fu | <B2>ете/2+p+Pre+Fu | <B2>ют/3+p+Pre+Fu | <B2>л/m+s+Pa | <B2>ла/f+s+Pa | <B2>ло/n+s+Pa | <B2>ли/p+Pa | <B2>й/2+s+Imp | <B2>йте/2+p+Imp | <B2>в/Ger | <B2>вши/Ger | <B2>вший/Prtp+Pa+Act+m+s+Im | <B2>вший/Prtp+Pa+Act+m+s+Vi | <B2>вшего/Prtp+Pa+Act+m+an+s+Vi | … <B2>нный/Prtp+Pa+Pss+m+s+Im | <B2>нный/Prtp+Pa+Pss+m+s+Vi | … | <B2>но/Prtp+Pa+Pss+n+s+fc | <B2>ны/Prtp+Pa+Pss+p+fc;
Exemple de paradigme verbal ( tronqué)
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
2525
Dictionnaire russe pour NoojDictionnaire russe pour Nooj
5. vérifier le paradigme, corriger les erreurs
Lab Morphology Look up a word Inflect
2626
Morphologie du russe pour NoojMorphologie du russe pour Nooj
5. corriger les erreurs : 5. corriger les erreurs :
-coquilles (mélange latin/cyrillique) A B E K и M H O P C T т У X ATOM MOCKBA Mots inconnus- erreurs dans l’écriture paradigmes <B><L> formes erronées - mauvaise affectation des mots à leur type flexionnel formes erronées ou génération de formes incongrues
- mots inutiles dans le dictionnaire source d’ambiguïtés supplémentaires-les noms des lettres a, б, в, и, к, о, с, у, я-les mots vieillis etc..
2727
Dictionnaire Morphologique Dictionnaire Morphologique du russe pour Noojdu russe pour Nooj
Bilan statistique : Bilan statistique :
Un dictionnaire compilé : russe_morph.nod = 12 Mo524 paradigmes verbaux 27274 verbes421 paradigmes nominaux 44564 substantifs55 paradigmes adjectivaux 20120 adjectifs 48 paradigmes numéraux, pronoms etc. 2126 « mots-outils »
Deux dictionnaires annexes56 paradigmes 3264 noms propres ( toponymes, noms de famille prénoms…) 755 adjectifs substantivés
2828
Dictionnaire Morphologique Dictionnaire Morphologique du russe pour Noojdu russe pour Nooj
Bilan statistique comparé avec le dictionnaire de EFREMOVA :Bilan statistique comparé avec le dictionnaire de EFREMOVA :Nooj : 95000 mots + noms propres 135000 mots
44564 substantifs 20120 adjectifs 755 adjectifs substantivés 27274 verbes 2126 « mots-outils »
3264 noms propres
Statistiques du dictionnaire d’ EFREMOVA http://www.efremova.info/
substantifs 61000 (85000 unités sémantiques)adjectifs 25000 (51000 unités sémantiques)
verbes 25000 (63000 unités sémantiques)pronoms 150 (300 unités sémantiques)numéraux 100 (150 unités sémantiques)adverbes 8500 (10000 unités sémantiques)adverbes prédicatifs 1200 (1500 unités sémantiques)prépositions 350 (400 unités sémantiques)conjonctions 400 (500 unités sémantiques)particules 450 (650 unités sémantiques)interjections 430 (500 unités sémantiques)
2929
Grammaires russes pour NoojGrammaires russes pour Nooj
concevoir des grammaires de recherche d’occurrences et concevoir des grammaires de recherche d’occurrences et
des grammaires de désambiguisation des grammaires de désambiguisation
- régime des prépositions - régime des verbes courants- accords adjectifs / substantifs- rection des numéraux- expression des dates / heures etc.- reconnaissance des toponymes, des prénoms, des diminutifs etc.
3030
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des concevoir des grammaires de recherche d’occurrences et des
grammaires de désambiguisation grammaires de désambiguisation
3131
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurence NAMEconcevoir des grammaires de recherche d’occurence NAME
3232
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSSconcevoir des grammaires de recherche d’occurences POSS
3333
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS (2)concevoir des grammaires de recherche d’occurences POSS (2)
3434
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences : VB MVTconcevoir des grammaires de recherche d’occurences : VB MVT
3535
Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de désambiguisation NADO - NADOconcevoir des grammaires de désambiguisation NADO - NADO
3636
Grammaires russes pour NoojGrammaires russes pour Noojutiliser la grammaire de désambiguisation NADO - NADOutiliser la grammaire de désambiguisation NADO - NADO
Avant l’analysesyntaxique
Après l’analyseSyntaxique avec La grammaire
3737
Grammaires russes pour NoojGrammaires russes pour Nooj
utiliser la grammaire de désambiguisation NADO - NADOutiliser la grammaire de désambiguisation NADO - NADO
3838
Se constituer des textes-tests Se constituer des textes-tests Pour vérifier et écrire les grammaires:Écrire un texte comportant « toutes » les structures que l’on souhaite trouver et désambiguiser .
Trouver une structureTrouver une structure : Text / Locate / Nooj Grammar
3939
Se constituer des textes-tests Se constituer des textes-tests Grammaire « Name »:Repère toutes les occurrences de la tournure « je m’appelle » .
Text / Locate / Nooj Grammar / Name.nog
4040
Se constituer des textes-tests Se constituer des textes-tests
Désambiguiser une structureDésambiguiser une structure : Info / Preference / Grammar Choisir la grammaire Relancer Syntactic analysis
4141
Constituer un corpus de textes vérifiésConstituer un corpus de textes vérifiés
DostoievkiDostoievki : le joueur : le joueur GogolGogol : le nez : le nez TchekhovTchekhov : la dame au petit chien : la dame au petit chien Tolstoï :Tolstoï : le prisonnier du caucase le prisonnier du caucase Kharms Kharms : récits: récits
4242
Améliorer les ressources pour le russeAméliorer les ressources pour le russe pour Nooj pour Nooj
BANQUE DE TEXTES/AUGMENTER LE NOMBRE DE TEXTES avec des DICTIONNAIRES SPECIFIQUES / TEXTES
CODAGE SÉMANTIQUE dans le dictionnaire:ANIMAL, PLANTE, METIER, LIEU, TEMPS , SENTIMENT etc.
constitution de ressources parallèles et alignées
harmonisation des étiquettes entre langues (slaves)