Ressources lexicales et grammaticales pour le russe

42
1 Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russe pour le russe Semaine NOOJ Semaine NOOJ Inalco Inalco 22 janvier 2013 22 janvier 2013 Vincent BÉNET CREE Centre de Recherches Europes-Eurasie Recherche assistée par ordinateur Dictionnaires et grammaires Dictionnaires et grammaires pour le russe pour le russe pour le logiciel Nooj pour le logiciel Nooj de Max Silberztein de Max Silberztein

description

Dictionnaires et grammaires pour le russe pour le logiciel Nooj de Max Silberztein. Ressources lexicales et grammaticales pour le russe. Semaine NOOJ Inalco 22 janvier 2013. Vincent BÉNET CREE Centre de Recherches Europes-Eurasie Recherche assistée par ordinateur. - PowerPoint PPT Presentation

Transcript of Ressources lexicales et grammaticales pour le russe

Page 1: Ressources lexicales et grammaticales  pour le russe

11

Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe

Semaine NOOJ Semaine NOOJ Inalco Inalco

22 janvier 201322 janvier 2013

Vincent BÉNETCREE

Centre de Recherches Europes-EurasieRecherche assistée par ordinateur

Dictionnaires et grammaires Dictionnaires et grammaires pour le russepour le russe

pour le logiciel Nooj pour le logiciel Nooj de Max Silberzteinde Max Silberztein

Page 2: Ressources lexicales et grammaticales  pour le russe

22

Etat des lieux sur les ressources pour le russeEtat des lieux sur les ressources pour le russe

Principes de conception du dictionnairePrincipes de conception du dictionnaire

Descriptif de la réalisationDescriptif de la réalisation

Principes de conception des grammairesPrincipes de conception des grammaires

Conception et réalisation de dictionnaire et grammaire Conception et réalisation de dictionnaire et grammaire pour le russe pour le logiciel Nooj pour le russe pour le logiciel Nooj

de Max Silberzteinde Max Silberztein

Page 3: Ressources lexicales et grammaticales  pour le russe

33

Historique des ressources existantes en russeHistorique des ressources existantes en russe

CORPUS RUSSES ACTUELSCORPUS RUSSES ACTUELS

AVEC RECHERCHE D’OCCURRENCES AVEC RECHERCHE D’OCCURRENCES 2000-20132000-2013

La bibliothèque de MoshkovLa bibliothèque de Moshkov

http://lib.ruhttp://lib.ru

Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru

Le corpus national de la langue russeLe corpus national de la langue russe

http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Le corpus national de la langue littéraire* Le corpus national de la langue littéraire* russerusse

http://www.narusco.ruhttp://www.narusco.ru

Page 4: Ressources lexicales et grammaticales  pour le russe

44

Corpus de textes russesCorpus de textes russes

Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru

•1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs)

•Corpus de textes de journaux (années 1991-2000)

•Dictionnaires

•avec logiciel intégré de recherche d’occurrences

Page 5: Ressources lexicales et grammaticales  pour le russe

55

Computer Fund of Russian languageComputer Fund of Russian language http://cfrl.ruhttp://cfrl.ru

Page 6: Ressources lexicales et grammaticales  pour le russe

66

Corpus national russeCorpus national russe http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Échantillon « représentatif » de la langue russe

50 000 textes

150 000 000 mots

Corpus de 5 000 000 formes étiquetées et désambiguïsées

avec recherche d’occurences

Page 7: Ressources lexicales et grammaticales  pour le russe

77

National corpus of russian languageNational corpus of russian language http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Recherche dans le corpus : par sous-corpusRecherche dans le corpus : par sous-corpus Recherche par morphosyntaxe ou sémantiqueRecherche par morphosyntaxe ou sémantique

Page 8: Ressources lexicales et grammaticales  pour le russe

88

Corpus national russeCorpus national russe http://www.ruscorpora.ruhttp://www.ruscorpora.ru

Page 9: Ressources lexicales et grammaticales  pour le russe

99

Corpus national de la langue ‘littéraire’ russeCorpus national de la langue ‘littéraire’ russe

http://www.narusco.ruhttp://www.narusco.ru

Textes Textes de la langue de la langue

russe écrite russe écrite et orale et orale

depuis 1950depuis 1950

Page 10: Ressources lexicales et grammaticales  pour le russe

1010

Corpus de textes russesCorpus de textes russesLa Bibliothèque de MoshkovLa Bibliothèque de Moshkov

http://http://lib.rulib.ru

Page 11: Ressources lexicales et grammaticales  pour le russe

1111

Historique des ressources existantes en russeHistorique des ressources existantes en russe

LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS

pour la langue russe pour la langue russe 1980-20001980-2000

UNITEXUNITEX

avec un corpus d’environ 100 avec un corpus d’environ 100 pages pages

( Le joueur de Dostoevski)( Le joueur de Dostoevski)

et un dictionnaire de 9000 et un dictionnaire de 9000 mots correspondant au mots correspondant au

vocabulaire russe du textevocabulaire russe du texte

Page 12: Ressources lexicales et grammaticales  pour le russe

1212

Historique des ressources existantes en russeHistorique des ressources existantes en russe

DICTIONNAIRE ELECTRONIQUEDICTIONNAIRE ELECTRONIQUE

pour la langue russe pour la langue russe

dictionnaire grammatical de dictionnaire grammatical de ZALIZNIAK ZALIZNIAK

96 000 entrées avec codage 96 000 entrées avec codage morphosyntaxique morphosyntaxique

------------

Version en ligneVersion en ligne : :conjugueur-déclineur de STARLINGconjugueur-déclineur de STARLING

http://starling.rinet.ru/cgi-bin/http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnmorphque.cgi?flags=endnnnn

Page 13: Ressources lexicales et grammaticales  pour le russe

1313

Historique des ressources existantes en russeHistorique des ressources existantes en russe

conjugueur-déclineur de STARLINGconjugueur-déclineur de STARLINGhttp://starling.rinet.ru/cgi-bin/http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnmorphque.cgi?flags=endnnnn

Page 14: Ressources lexicales et grammaticales  pour le russe

1414

Ressources russes :Ressources russes :dictionnaire de Zaliznjakdictionnaire de Zaliznjak

Version papier du dictionnaire:

Ordre alphabétique inverse

Notation grammaticale:

Étiquette + modèle flexionnel+ particularité(s)

Page 15: Ressources lexicales et grammaticales  pour le russe

1515

Ressources russes :Ressources russes :dictionnaire de Zaliznjak ( version électronique)dictionnaire de Zaliznjak ( version électronique)

Page 16: Ressources lexicales et grammaticales  pour le russe

1616

IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS

Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées

Problème du codage utilisé полный п 1*а/б // 1*a/cbasé sur l’accent de motcomplété d’annotations inutilisables Nettoyage et « rationalisation »

Constituer des ressources en russe pour NoojConstituer des ressources en russe pour Nooj

Page 17: Ressources lexicales et grammaticales  pour le russe

1717

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

1.1. constituer un dictionnaire ( pb accent et pb constituer un dictionnaire ( pb accent et pb ë) ë)

2. créer un jeu d’étiquettes   « créer un jeu d’étiquettes   « lisibles »lisibles » 3. recoder le dictionnaire avec ces 3. recoder le dictionnaire avec ces étiquettesétiquettes

4. établir la liste des modèles types , écrire les établir la liste des modèles types , écrire les paradigmesparadigmes et et affecter les modèles aux mots du affecter les modèles aux mots du dictionnairedictionnaire 5. vérifier le paradigme,vérifier le paradigme, tester avec des textes tester avec des textes etet corriger les erreurscorriger les erreurs

Page 18: Ressources lexicales et grammaticales  pour le russe

1818

1. constituer un dictionnaire

4 dictionnaires compilés en un seul « ru_morph »4 dictionnaires compilés en un seul « ru_morph »

ru_a # adjectifs ru_a # adjectifs

ru_n # substantifsru_n # substantifs

ru_v # verbesru_v # verbes

ru_o #ru_o #

o comprend les prépositions, les particules, les pronoms, les mots-o comprend les prépositions, les particules, les pronoms, les mots-outils, les numérauxoutils, les numéraux

Deux dictionnaires additionnels:Deux dictionnaires additionnels:

ru_p (noms propres)ru_p (noms propres)

ru_as (adjectifs substantivés)ru_as (adjectifs substantivés)

.dic = liste de mots et .nof = pararadigmes.dic = liste de mots et .nof = pararadigmes

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

Page 19: Ressources lexicales et grammaticales  pour le russe

1919

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

problème du ë / e (non résolu à ce jour par

l’Académie de Russie)

сестра сёстры / sestra sëstry (sestry) сестры : notation imprimerie livres et journaux се: стры : notation du dictionnaire

problème de l’accent (jamais noté):

Гóрод городá gorod goroda Г<ород город<а : notation du dictionnaire

Page 20: Ressources lexicales et grammaticales  pour le russe

2020

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ;

ADV_Deg = Comp; ADV_Sem = Tps | Loc | Modal;

N_Genre = m | f | n ;N_SGenr = an | inan ;N_Nombre = s | p;N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ;

2. créer un jeu d’étiquettes   « lisibles » properties.def

V_Pers = 1 | 2 | 3 ;V_Asp = Ipf | Pf ;V_Type = Mvt ;V_Morph = Pvb | Simp | Sufx | PvbSufx ;V_SsAsp = Det | Indet ;V_Temps = Pre | Pa | Fu ;V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ;V_Voix = Act | Pss ;V_Genre = m | f | n ;V_Nombre = s | p ;V_Constr = intr | tr | sja ;V_Cas = Im | Vi | Ro | Da | Tv | Pr ;

Page 21: Ressources lexicales et grammaticales  pour le russe

2121

Dictionnaire russe pour NoojDictionnaire russe pour Nooj3.recoder le dictionnaire avec ces étiquettes

Page 22: Ressources lexicales et grammaticales  pour le russe

2222

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

3.recoder le dictionnaire avec ces étiquettesабиссинец,N+m+an+FLX=украинецабитуриент,N+m+an+FLX=артистаблятив,N+m+inan+FLX=заводабляут,N+m+inan+FLX=заводаболиционизм,N+m+inan+FLX=заводаболиционист,N+m+an+FLX=артистабонемент,N+m+inan+FLX=заводабонент,N+m+an+FLX=артист

abažur,N+m+inan+FLX=zavodabazinec,N+m+an+FLX=ukrainecabazin,N+m+an+FLX=artistabaz,N+m+inan+FLX=zavodabak,N+m+inan+FLX=čajnikabbat,N+m+an+FLX=artist

Page 23: Ressources lexicales et grammaticales  pour le russe

2323

#j1a=karta#jo1a=korova#j2a=nedelja#jo2a=boginja#j3a=kniga#jo3a=sobaka#j4a=tuča#jo4a=kassirša#j5a=ulica#jo5a=volčica#j6a=statuja#jo6a=feja#j7a=linija#jo7a=furija

4. établir la liste des modèles types

карта = <E>/Im+s + <B>у/Vi+s + <B>ы/Ro+s + <B>е/Da+s + <B>ой/Tv+s + <B>е/Pr+s + <B>ы/Im+p + <B>ы/Vi+p + <B>/Ro+p + <B>ам/Da+p + <B>ами/Tv+p + <B>ах/Pr+p ;

écrire les paradigmes

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

Page 24: Ressources lexicales et grammaticales  pour le russe

2424

читать = <E>/Inf | <B2>ю/1+s+Pre | <B2>ешь/2+s+Pre | <B2>ет/3+s+Pre | <B2>ем/1+p+Pre | <B2>ете/2+p+Pre | <B2>ют/3+p+Pre | <B2>л/m+s+Pa | <B2>ла/f+s+Pa | <B2>ло/n+s+Pa | <B2>ли/p+Pa | <B2>й/2+s+Imp | <B2>йте/2+p+Imp | <B2>я/Ger | <B2>ющий/Prtp+Pre+Act+m+s+Im | <B2>ющий/Prtp+Pre+Act+m+s+Vi | <B2>ющего/Prtp+Pre+Act+m+an+s+Vi | … <B2>вший/Prtp+Pa+Act+m+s+Im | <B2>вший/Prtp+Pa+Act+m+s+Vi | <B2>вшего/Prtp+Pa+Act+m+an+s+Vi | <B2>вшего/Prtp+Pa+Act+m+s+Ro | … <B2>емый/Prtp+Pre+Pss+m+s+Im | <B2>емый/Prtp+Pre+Pss+m+s+Vi | … | <B2>ем/Prtp+Pre+Pss+m+fc | <B2>ема/Prtp+Pre+Pss+f+fc | …

прочитать = <E>/Inf | <B2>ю/1+s+Pre+Fu | <B2>ешь/2+s+Pre+Fu | <B2>ет/3+s+Pre+Fu | <B2>ем/1+p+Pre+Fu | <B2>ете/2+p+Pre+Fu | <B2>ют/3+p+Pre+Fu | <B2>л/m+s+Pa | <B2>ла/f+s+Pa | <B2>ло/n+s+Pa | <B2>ли/p+Pa | <B2>й/2+s+Imp | <B2>йте/2+p+Imp | <B2>в/Ger | <B2>вши/Ger | <B2>вший/Prtp+Pa+Act+m+s+Im | <B2>вший/Prtp+Pa+Act+m+s+Vi | <B2>вшего/Prtp+Pa+Act+m+an+s+Vi | … <B2>нный/Prtp+Pa+Pss+m+s+Im | <B2>нный/Prtp+Pa+Pss+m+s+Vi | … | <B2>но/Prtp+Pa+Pss+n+s+fc | <B2>ны/Prtp+Pa+Pss+p+fc;

Exemple de paradigme verbal ( tronqué)

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

Page 25: Ressources lexicales et grammaticales  pour le russe

2525

Dictionnaire russe pour NoojDictionnaire russe pour Nooj

5. vérifier le paradigme, corriger les erreurs

Lab Morphology Look up a word Inflect

Page 26: Ressources lexicales et grammaticales  pour le russe

2626

Morphologie du russe pour NoojMorphologie du russe pour Nooj

5. corriger les erreurs : 5. corriger les erreurs :

-coquilles (mélange latin/cyrillique) A B E K и M H O P C T т У X ATOM MOCKBA Mots inconnus- erreurs dans l’écriture paradigmes <B><L> formes erronées - mauvaise affectation des mots à leur type flexionnel formes erronées ou génération de formes incongrues

- mots inutiles dans le dictionnaire source d’ambiguïtés supplémentaires-les noms des lettres a, б, в, и, к, о, с, у, я-les mots vieillis etc..

Page 27: Ressources lexicales et grammaticales  pour le russe

2727

Dictionnaire Morphologique Dictionnaire Morphologique du russe pour Noojdu russe pour Nooj

Bilan statistique : Bilan statistique :

Un dictionnaire compilé : russe_morph.nod = 12 Mo524 paradigmes verbaux 27274 verbes421 paradigmes nominaux 44564 substantifs55 paradigmes adjectivaux 20120 adjectifs 48 paradigmes numéraux, pronoms etc. 2126 « mots-outils »

Deux dictionnaires annexes56 paradigmes 3264 noms propres ( toponymes, noms de famille prénoms…) 755 adjectifs substantivés

Page 28: Ressources lexicales et grammaticales  pour le russe

2828

Dictionnaire Morphologique Dictionnaire Morphologique du russe pour Noojdu russe pour Nooj

Bilan statistique comparé avec le dictionnaire de EFREMOVA :Bilan statistique comparé avec le dictionnaire de EFREMOVA :Nooj : 95000 mots + noms propres 135000 mots

44564 substantifs 20120 adjectifs 755 adjectifs substantivés 27274 verbes 2126 « mots-outils »

3264 noms propres

Statistiques du dictionnaire d’ EFREMOVA http://www.efremova.info/

substantifs 61000 (85000 unités sémantiques)adjectifs 25000 (51000 unités sémantiques)

verbes 25000 (63000 unités sémantiques)pronoms 150 (300 unités sémantiques)numéraux 100 (150 unités sémantiques)adverbes 8500 (10000 unités sémantiques)adverbes prédicatifs 1200 (1500 unités sémantiques)prépositions 350 (400 unités sémantiques)conjonctions 400 (500 unités sémantiques)particules 450 (650 unités sémantiques)interjections 430 (500 unités sémantiques)

Page 29: Ressources lexicales et grammaticales  pour le russe

2929

Grammaires russes pour NoojGrammaires russes pour Nooj

concevoir des grammaires de recherche d’occurrences et concevoir des grammaires de recherche d’occurrences et

des grammaires de désambiguisation des grammaires de désambiguisation

- régime des prépositions - régime des verbes courants- accords adjectifs / substantifs- rection des numéraux- expression des dates / heures etc.- reconnaissance des toponymes, des prénoms, des diminutifs etc.

Page 30: Ressources lexicales et grammaticales  pour le russe

3030

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des concevoir des grammaires de recherche d’occurrences et des

grammaires de désambiguisation grammaires de désambiguisation

Page 31: Ressources lexicales et grammaticales  pour le russe

3131

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurence NAMEconcevoir des grammaires de recherche d’occurence NAME

Page 32: Ressources lexicales et grammaticales  pour le russe

3232

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSSconcevoir des grammaires de recherche d’occurences POSS

Page 33: Ressources lexicales et grammaticales  pour le russe

3333

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS (2)concevoir des grammaires de recherche d’occurences POSS (2)

Page 34: Ressources lexicales et grammaticales  pour le russe

3434

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de recherche d’occurences : VB MVTconcevoir des grammaires de recherche d’occurences : VB MVT

Page 35: Ressources lexicales et grammaticales  pour le russe

3535

Grammaires russes pour NoojGrammaires russes pour Nooj concevoir des grammaires de désambiguisation NADO - NADOconcevoir des grammaires de désambiguisation NADO - NADO

Page 36: Ressources lexicales et grammaticales  pour le russe

3636

Grammaires russes pour NoojGrammaires russes pour Noojutiliser la grammaire de désambiguisation NADO - NADOutiliser la grammaire de désambiguisation NADO - NADO

Avant l’analysesyntaxique

Après l’analyseSyntaxique avec La grammaire

Page 37: Ressources lexicales et grammaticales  pour le russe

3737

Grammaires russes pour NoojGrammaires russes pour Nooj

utiliser la grammaire de désambiguisation NADO - NADOutiliser la grammaire de désambiguisation NADO - NADO

Page 38: Ressources lexicales et grammaticales  pour le russe

3838

Se constituer des textes-tests Se constituer des textes-tests Pour vérifier et écrire les grammaires:Écrire un texte comportant « toutes » les structures que l’on souhaite trouver et désambiguiser .

Trouver une structureTrouver une structure : Text / Locate / Nooj Grammar

Page 39: Ressources lexicales et grammaticales  pour le russe

3939

Se constituer des textes-tests Se constituer des textes-tests Grammaire « Name »:Repère toutes les occurrences de la tournure « je m’appelle » .

Text / Locate / Nooj Grammar / Name.nog

Page 40: Ressources lexicales et grammaticales  pour le russe

4040

Se constituer des textes-tests Se constituer des textes-tests

Désambiguiser une structureDésambiguiser une structure : Info / Preference / Grammar Choisir la grammaire Relancer Syntactic analysis

Page 41: Ressources lexicales et grammaticales  pour le russe

4141

Constituer un corpus de textes vérifiésConstituer un corpus de textes vérifiés

DostoievkiDostoievki : le joueur : le joueur GogolGogol : le nez : le nez TchekhovTchekhov : la dame au petit chien : la dame au petit chien Tolstoï :Tolstoï : le prisonnier du caucase le prisonnier du caucase Kharms Kharms : récits: récits

Page 42: Ressources lexicales et grammaticales  pour le russe

4242

Améliorer les ressources pour le russeAméliorer les ressources pour le russe pour Nooj pour Nooj

BANQUE DE TEXTES/AUGMENTER LE NOMBRE DE TEXTES avec des DICTIONNAIRES SPECIFIQUES / TEXTES

CODAGE SÉMANTIQUE dans le dictionnaire:ANIMAL, PLANTE, METIER, LIEU, TEMPS , SENTIMENT etc.

constitution de ressources parallèles et alignées

harmonisation des étiquettes entre langues (slaves)