Post on 24-Jan-2016
description
1
Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe
Semaine NOOJ Semaine NOOJ Inalco Inalco
31 janvier 201231 janvier 2012Vincent BÉNET
CREE CERRUS - RAO
Recherche assistée par ordinateur
Conception et réalisation Conception et réalisation de ressources lexicales et de ressources lexicales et
grammaticales grammaticales pour le russepour le russe
pour le logiciel Nooj pour le logiciel Nooj de Max Silberzteinde Max Silberztein
2
Historique des ressources existantes pour le russeHistorique des ressources existantes pour le russe
Principes de conceptionPrincipes de conception
Descriptif de la réalisationDescriptif de la réalisation
Travail restant à faireTravail restant à faire
Conception et réalisation de ressources lexicales et Conception et réalisation de ressources lexicales et grammaticales grammaticales
pour le russe pour le logiciel Nooj pour le russe pour le logiciel Nooj de Max Silberzteinde Max Silberztein
3
Historique des ressources existantes en Historique des ressources existantes en russerusse
CORPUS RUSSES ACTUELSCORPUS RUSSES ACTUELS
2000-20102000-2010
La bibliothèque de MoshkovLa bibliothèque de Moshkov
http://lib.ruhttp://lib.ru
Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru
Le corpus national de la langue russeLe corpus national de la langue russe
http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Le corpus national de la langue littéraire* russeLe corpus national de la langue littéraire* russe
http://www.narusco.ruhttp://www.narusco.ru
4
Corpus de textes russesCorpus de textes russesLa Bibliothèque de MoshkovLa Bibliothèque de Moshkov
http://http://liblib.ru.ru
5
Corpus de textes russesCorpus de textes russes
Le fonds informatisé de la langue russeLe fonds informatisé de la langue russehttp://cfrl.ruhttp://cfrl.ru
•1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs)
•Corpus de textes de journaux (années 1991-2000)
•Dictionnaires
•avec logiciel intégré de recherche d’occurrences
6
Машинный фонд русского Машинный фонд русского языкаязыка
http://cfrl.ruhttp://cfrl.ru
7
Машинный фонд русского Машинный фонд русского языкаязыка
http://cfrl.ruhttp://cfrl.ru
8
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Échantillon « représentatif » de la langue russe
50 000 textes
150 000 000 mots
Corpus de 5 000 000 formes étiquetées et désambiguïsées
avec recherche d’occurences
9
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Recherche dans le corpus : choix du sous-corpusRecherche dans le corpus : choix du sous-corpus
10
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Sélection morphosyntaxique dans le corpusSélection morphosyntaxique dans le corpus
11
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Sélection sémantique dans le corpusSélection sémantique dans le corpus
12
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Sélection sémantique dans le corpusSélection sémantique dans le corpus
13
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Recherche dans le corpusRecherche dans le corpus
14
Национальный корпус Национальный корпус русского языкарусского языка http://www.ruscorpora.ruhttp://www.ruscorpora.ru
Recherche dans le corpusRecherche dans le corpus
15
Historique des ressources existantes en Historique des ressources existantes en russerusse
DICTIONNAIRE ELECTRONIQUEDICTIONNAIRE ELECTRONIQUE
pour la langue russe pour la langue russe
dictionnaire grammatical de ZALIZNIAK dictionnaire grammatical de ZALIZNIAK
96 000 entrées avec codage 96 000 entrées avec codage morphosyntaxique morphosyntaxique
version papier = dictionnaire a tergo version papier = dictionnaire a tergo
version électronique (avec codage) version électronique (avec codage) alphabétiquealphabétique
16
Historique des ressources existantes en Historique des ressources existantes en russerusse
DICTIONNAIRE ELECTRONIQUE DICTIONNAIRE ELECTRONIQUE pour la langue pour la langue russe russe dictionnaire grammatical de ZALIZNIAK dictionnaire grammatical de ZALIZNIAK
17
Historique des ressources existantes en Historique des ressources existantes en russerusse
conjugueur-déclineur russe de conjugueur-déclineur russe de STARLINGSTARLING
http://starling.rinet.ru/cgi-bin/morphque.cgi?http://starling.rinet.ru/cgi-bin/morphque.cgi?flags=endnnnnflags=endnnnn
18
Historique des ressources existantes en Historique des ressources existantes en russerusse
LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS
pour la langue russe pour la langue russe 1980-20001980-2000
UNILEX ( sous DOS) UNILEX ( sous DOS)
MAK ( sous Windows )MAK ( sous Windows )
avec un corpus d’environ 4000 pages avec un corpus d’environ 4000 pages
de textes russes lemmatisésde textes russes lemmatisés
19
Historique des ressources existantes en Historique des ressources existantes en russerusse
LOGICIELS DE TRAITEMENT DE CORPUSLOGICIELS DE TRAITEMENT DE CORPUS
pour la langue russe pour la langue russe 1980-20001980-2000
UNITEX UNITEX
avec un corpus avec un corpus d’environ 100 pages d’environ 100 pages
( Le joueur de ( Le joueur de Dostoevski)Dostoevski)
et un dictionnaire de et un dictionnaire de 9000 mots 9000 mots
correspondant au correspondant au vocabulaire russe du vocabulaire russe du
textetexte
20
Historique des ressources existantes en Historique des ressources existantes en russerusse
UNITEX avec un corpus d’environ 100 pages ( Le joueur de UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski)Dostoevski)
et un dictionnaire de 9000 motset un dictionnaire de 9000 mots
21
Constituer des ressources Constituer des ressources Nooj pour la langue russeNooj pour la langue russe
NOOJNOOJ http://www.nooj4nlp.net/http://www.nooj4nlp.net/ M. Silberztein
22
Ecrire un lemmatiseur du russe pour Ecrire un lemmatiseur du russe pour NoojNooj
Prendre l’UNILEX russe comme modèle ?
étiquettes:С - substantif, П – adjectif … мр, жр, ср – masculin, féminin, neutreим, рд, дт, вн, тв, пр - cas : nominatif, génitif, datif, accusatif, instrumental, prépositiftableau de correspondances:аа A С мр, но, ед, им. aa= substantif, masc, inanimé, sing, nominatifаб A С мр, но, ед, рд.бд C С мр, од, ед, тв.dictionnaire:АРОТЛОП%0*эжэйэтэх « IMED TE NU »paradigmes:%ЙО*ад%У*аг%Ы*абажай Y=gén. sg fém, nom. pl. fém , acc. pl. inan
23
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS
Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées
Problème du codage utilisé полный п 1*а/б // 1*a/cbasé sur l’accent de motcomplété d’annotations inutilisables non formaliséenon-phonologique non-orthographique (écriture de la voyelle mobile, du jod)
les modèles de Zalizniak ont dû être remaniés pour le traitement informatique
24
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
1. reconstituer un dictionnaire
2. créer un jeu d’étiquettes lisibles 3. recoder le dictionnaire avec ces étiquettes
4. problème du ë / e
5. établir la liste des modèles types
6. écrire les paradigmes
7. affecter les modèles aux mots du dictionnaire
8. vérifier le paradigme
9. tester avec des textes 9. tester avec des textes
10. corriger les erreurs 10. corriger les erreurs
25
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
1. reconstituer un dictionnaire a tergo
2. créer un jeu d’étiquettes lisibles N, A, V, ADV etc.
A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ;ADV_Deg = Comp;
26
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
2. jeu d’étiquettes
DEFINITION DES PROPRIETES ET DES CARACTERISTIQUES AFFECTEES
A_Forme = fc | fl | adv;A_Genre = m | f | n ;A_SGenr = an | inan ;A_Nombre = s | p;A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv;A_Deg = Comp | Sup ; ADV_Deg = Comp; N_Genre = m | f | n ;N_SGenr = an | inan ;N_Nombre = s | p;N_Cas = Im | Vi | Ro | R2 | Da | Tv | Pr | P2 | Zv ;N_Sem = Hum | Conc | Abstr | Org | Text | ConcColl + Cpmc | Immeub | Qual | Anim | Loc | Pdc | Sent | Quant | Mat | Liq | Alim | Vehicl | Pr | Tmp | Atm | Geom | CollHum | CollImmeub | Mach ;
NUM_Cat = ord | card | collNUM_Genre = m | f | n ;NUM_SGenr = an | inan ;NUM_Nombre = s | p;NUM_Cas = Im | Vi | Ro | Da | Tv | Pr ; PRON_Genre = m | f | n;PRON_SGenr = an | inan ;PRON_Nombre = s | p;PRON_Pers = 1 | 2 | 3;PRON_Cas = Im | Vi | Vip | Ro | Rop | Da | Dap | Tv | Tvp | Pr ; V_Pers = 1 | 2 | 3;V_Asp = Ipf | Pf;V_Temps = Pre | Pa | Fu;V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ;V_Voix = Act | Pss ;V_Genre = m | f | n ;V_Nombre = s | p ;V_Sem = Intr | Tr | Refl ;V_Cas = Im | Vi | Ro | Da | Tv | Pr ; PREP;CONJ;INTERJ;PART;INTRO;
27
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
4. problème du ë / e (non résolu à ce jour par l’Académie de Russie)
3. recoder le dictionnaire avec ces étiquettes
28
modèles types
<N>45000 substantifs
<A>20000 adjectifs
<V>27000 verbes
<ADV> <PREP> <NUM>2200
paradigmes
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
<N>350 types flexionnels
<A>60 types flexionnels
<V>400 types verbaux
<NUM>Cardinaux
29
#j1a=karta#jo1a=korova#j2a=nedelja#jo2a=boginja#j3a=kniga#jo3a=sobaka#j4a=tuča#jo4a=kassirša#j5a=ulica#jo5a=volčica#j6a=statuja#jo6a=feja#j7a=linija#jo7a=furija
5. établir la liste des modèles types
карта = <E>/Im+f+s + <B>у/Vi+f+s + <B>ы/Ro+f+s + <B>е/Da+f+s + <B>ой/Tv+f+s + <B>е/Pr+f+s + <B>ы/Im+f+p + <B>ы/Vi+f+p + <B>/Ro+f+p + <B>ам/Da+f+p + <B>ами/Tv+f+p + <B>ах/Pr+f+p ;
6. écrire les paradigmes
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
6b. écrire les dérivés ( patronymes)
30
7. affecter les modèles aux mots du dictionnaire
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
abažur,N+m+inan+FLX=zavodabazinec,N+m+an+FLX=ukrainecabazin,N+m+an+FLX=artistabaz,N+m+inan+FLX=zavodabak,N+m+inan+FLX=čajnikabbat,N+m+an+FLX=artist
8. vérifier le paradigme
31
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
9. tester avec des textes : 9. tester avec des textes : «« la dame au petit chien » de Tchekhovla dame au petit chien » de Tchekhov
32
Ecrire un lemmatiseur du russe Ecrire un lemmatiseur du russe pour Noojpour Nooj
10. corriger les erreurs : 10. corriger les erreurs :
-coquilles (mélange latin/cyrillique) A B E K M H O P C y X MOCKBA
- erreurs dans l’écriture paradigmes <B><L>
- mauvaise affectation des mots à leur type flexionnelsurgénération de formes incongrues
- mots inutiles dans le dictionnaire = source d’ambiguïtés supplémentaires-les noms des lettres a, б, в, и, к, о, с, у, я-les mots vieillis etc..
33
Désambiguïser un texteDésambiguïser un texte
34
Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj
concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation
- régime des prépositions - régime des verbes courants- accords adjectifs / substantifs- rection des numéraux- expression des dates / heures etc.- reconnaissance des toponymes, des prénoms, des diminutifs etc.
35
Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj
concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation
36
Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj
concevoir des grammaires de désambiguisation concevoir des grammaires de désambiguisation
37
Constituer un corpus Constituer un corpus de textes vérifiés et de textes vérifiés et
désambiguïsésdésambiguïsés
38
Constituer un corpus Constituer un corpus de textes vérifiésde textes vérifiés
NOOJNOOJ
39
Ecrire des ressources pour le russeEcrire des ressources pour le russe pour Nooj pour Nooj
Pour aller plus loin…. dans une perspective ultérieure de
constitution de ressources parallèles et alignées
Harmonisation des étiquettes entre langues (slaves)
40
Ressources lexicales et grammaticales Ressources lexicales et grammaticales pour le russepour le russe
Semaine NOOJ Semaine NOOJ Inalco Inalco
31 janvier 201231 janvier 2012
vincent.benet@inalco.fr
CREE Langue , linguistique et développement numérique
Recherche assistée par ordinateur
Conception et réalisation Conception et réalisation de ressources lexicales et de ressources lexicales et
grammaticales russesgrammaticales russespour NOOJpour NOOJ