Vers la construction des ressources linguistiques...

19
Vers la construction des ressources linguistiques nécessaires pour la génération de la langue amazighe à partir de l’inter-langue UNL Imane Taghbalout 1 , Fadoua Ataa Allah 2 , Mohamed El Marraki 1 1 LRIT, Faculté des sciences, Université Mohammed V, Rabat, Maroc {taghbalout.imane, elmarrakimohamed}@gmail.com 2 CEISIC, Institut Royal de la Culture Amazighe, Rabat, Maroc [email protected] Résumé. La traduction automatique multilingue à base dune inter-langue a été largement considérée comme lapproche de traduction la plus attrayante dans le cas des langues peu dotées informatiquement. Dans cet article, il sagit de linter-langue UNL (Universal Networking Language, langage du réseau universel) qui permet à tout texte en langue source à être traduit vers lensemble des langues cibles participantes au projet UNL, et cela par la conversion du sens porté par le texte source en un graphe UNL, et la déconversion de ce graphe en la langue cible. Ce processus denconversion et de déconversion nécessite la préparation dun ensemble de ressources linguistiques, à savoir : une base lexicale et une base des règles grammaticales. Dans cet article, nous décrivons les ressources linguistiques nécessaires pour la déconversion du language UNL à la langue amazighe. 1. Introduction Linformatisation de la langue amazighe est un enjeu stratégique garantissant sa survie et son positionnement dans la société de linformation. Dans ce sens, plusieurs efforts ont été déployés durant cette dernière décennie pour doter cette langue de ressources linguistiques et doutils du TAL (Traitement Automatique des Langues). Cependant, à notre connaissance, il nexiste pas

Transcript of Vers la construction des ressources linguistiques...

Page 1: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Vers la construction des ressources linguistiques nécessaires pour la génération de la langue amazighe à partir de l’inter-langue UNL

Imane Taghbalout1, Fadoua Ataa Allah

2, Mohamed El Marraki

1

1LRIT, Faculté des sciences, Université Mohammed V, Rabat, Maroc

{taghbalout.imane, elmarrakimohamed}@gmail.com

2CEISIC, Institut Royal de la Culture Amazighe, Rabat, Maroc

[email protected]

Résumé.

La traduction automatique multilingue à base d’une inter-langue a été

largement considérée comme l’approche de traduction la plus attrayante dans

le cas des langues peu dotées informatiquement. Dans cet article, il s’agit de

l’inter-langue UNL (Universal Networking Language, langage du réseau

universel) qui permet à tout texte en langue source à être traduit vers

l’ensemble des langues cibles participantes au projet UNL, et cela par la

conversion du sens porté par le texte source en un graphe UNL, et la

déconversion de ce graphe en la langue cible. Ce processus d’enconversion

et de déconversion nécessite la préparation d’un ensemble de ressources

linguistiques, à savoir : une base lexicale et une base des règles

grammaticales. Dans cet article, nous décrivons les ressources linguistiques

nécessaires pour la déconversion du language UNL à la langue amazighe.

1. Introduction

L’informatisation de la langue amazighe est un enjeu stratégique garantissant sa survie et son positionnement dans la société de l’information. Dans ce sens, plusieurs efforts ont été déployés durant cette dernière décennie pour doter cette langue de ressources linguistiques et d’outils du TAL (Traitement Automatique des Langues). Cependant, à notre connaissance, il n’existe pas

Page 2: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

de travaux sur la Traduction Automatique (TA) de la langue amazighe. Pour cette raison, nous avons entamé les premières étapes de réalisation d’un Système de Traduction Automatique (STA). Certes l’approche statistique est l’approche la plus prometteuse dans le domaine de la TA mais elle requiert des corpus de très grande taille. Or, pour notre cas, la langue amazighe est une langue peu dotée informatiquement, il sera difficile de trouver un corpus de taille supérieure à quelques milliers de textes. Ainsi, nous avons opté pour l’approche linguistique : la traduction via l’inter-langue UNL. Dans ce cas, la traduction de n’importe quelle langue source vers n’importe quelle langue cible est le processus qui consiste à « convertir » la phrase source vers la représentation UNL puis à « déconvertir » la phrase cible à partir de cette représentation UNL. Le choix du langage UNL comme une langue pivot est basé premièrement sur le fait que l’UNL est conçu non seulement pour les langues les plus avancées informatiquement mais aussi pour les langues peu dotées et qui sont en voie de disparition, deuxièmement parce que ce langage donne la possibilité de travailler dans un environnement multilingue. Du coup, la réalisation du convertisseur Amazighe-UNL et du déconvertisseur UNL-Amazighe permettra de traduire tout texte amazighe vers les différentes autres langues participantes dans le projet UNL.

Dans la deuxième partie de cet article, nous présentons brièvement le projet UNL. Dans la partie qui suit, nous aborderons le processus de construction du dictionnaire UNL-Amazighe, en l’occurrence l’identification et la formalisation des paradigmes flexionnels et les cadres de sous-catégorisation amazighes. La quatrième partie sera consacrée à l’implémentation des règles grammaticales de génération du texte amazighe à partir de la représentation sémantique UNL.

2. Le projet UNL (Universal Networking Language)

L’organisation des Nations Unis a lancé le projet UNL (Universal Networking Language) sous les auspices de l’institut des études avancées de l’université des Nations Unis de Tokyo en 1996 (Uchida et al., 1999). Le but de ce projet est de permettre à toute personne du monde entier d’accéder à toutes les informations existantes sur Internet dans sa langue maternelle, favorisant ainsi le multilinguisme et réduisant les contraintes d’accéder à l’information à cause des barrières linguistiques. Pour cela, l’équipe de ce projet a développé un langage formel, appelé UNL, qui permet de coder le sens d’une information sous la forme d’un graphe qui se compose d’un ensemble de nœuds reliés par des arcs. Chaque nœud contient un Mot Universel “UW”, (Universal Word) et chaque arc porte une relation sémantique entre deux nœuds. UWs sont souvent accompagnés d’un

Page 3: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

ensemble de propriétés grammaticales appelées des attributs (Uchida et Zhu, 2004). Les définitions de chacune de ces éléments de base de l’inter-langue UNL sont :

Mots Universaux (UWs) : constituent le vocabulaire du langage UNL, se sont des mots anglais accompagnés d’un ensemble de restrictions sémantiques et linguistiques.

Attributs Universaux : représentent les propriétés grammaticales qui peuvent enrichir la description des mots universaux. Par exemple, le mot universel “UW” qui correspond au mot anglais ‘play’ est ‘play (icl>do)’. (icl>do) est ajouté pour dire qu’il s’agit d’un verbe. Si le verbe ‘play’ est conjugué au passé, l’attribut ‘@past’ doit être ajouté à l’UW ‘play (icl>do)’. Ainsi, nous obtenons la syntaxe suivante de l’UW: ‘play (icl>do, @past)’.

Relations Universaux : sont des relations syntactico-sémantiques binaires qui connectent une paire de nœuds dans un graphe UNL. Le système UNL définit un ensemble de labels pour ces relations suivant leurs rôles. Par exemple, la relation “agt” (agent) définit la chose ou la personne qui initie une action.

La traduction automatique via UNL fait appel à un ensemble de ressources linguistiques et d’infrastructures techniques telles que :

2.1. Ressources linguistiques

Les ressources linguistiques sont stockées dans le framework « UNLarium », qui consiste en des bases de données lexicales (dictionnaires), des bases de règles (grammaires) et des bases de documents (des corpus).

Dictionnaire UNL qui liste les UWs avec leurs propriétés linguistiques et sémantiques dans un ordre alphabétique.

Dictionnaire LN (Langue Naturelle) qui liste les entrées lexicales des langues naturelles avec leurs propriétés linguistiques.

Dictionnaire LN-UNL, c’est un dictionnaire bilingue qui relie les entrées lexicales d’une langue naturelle à leurs correspondants en UNL. Nous pouvons exploiter ce dictionnaire de deux manières : Soit sous une forme générative, dans laquelle le dictionnaire comporte seulement les formes de base (lemmes), dans ce cas, nous l’appelons un dictionnaire de génération. Soit sous une forme énumérative dans laquelle le dictionnaire LN-UNL liste toutes les formes fléchies d’un lemme donné. Et dans ce cas, nous l’appelons un dictionnaire d’analyse . Il est exploité principalement dans la phase d’analyse des langues naturelles.

Page 4: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

Une base de connaissance UNL qui regroupe toutes les relations possibles entre les mots universaux, une liste des règles grammaticales responsables de la conversion des textes en langues naturelles et la déconversion des graphes UNL.

Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases en des graphes UNL et vice-versa. Il existe deux types de règles : règles transformationnelles utilisées pour la génération des phrases en langue naturelle à partir du graphe UNL et vice-versa. Et règles de désambiguïsation utilisées pour améliorer la performance des règles transformationnelles en limitant leur application.

Le schéma suivant illustre l’architecture de fonctionnement des différentes

ressources linguistiques que nous avons expliquées ci-dessus.

Fig. 1 : Processus de l’Enconversion et de la Déconversion en UNL

2.2. Infrastructures techniques

En plus des ressources linguistiques, la réalisation d’un système de

traduction d’une langue via UNL se base sur deux composantes logicielles :

un système d’analyse (convertisseur) appelé IAN (Interactive Analysis

System) et un déconvertisseur, un système de génération des langues

Page 5: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

naturelles appelé EUGENE (dEep-to-sUrface natural language GENErator).

IAN opère d’une manière semi-automatique, la désambiguïsation du sens

d’un mot reste une tâche humaine, effectuée par un spécialiste de langue,

cependant, EUGENE opère automatiquement.

3. Construction du dictionnaire UNL-Amazighe

En vue de bien créer un dictionnaire d’analyse ou de génération, nous

devrons disposer d’un ensemble de caractéristiques linguistiques telles que la

catégorie grammaticale, la transitivité, le paradigme flexionnel et le cadre de

sous-catégorisation auxquels appartient l’entrée lexicale. Chaque entrée du

dictionnaire UNL-Amazighe a le format suivant : (Teixeira et Avetisyan,

2009):

[NLW] {ID} ‘UW’ (ATTR …) < FLG, FRE, PRI >;

où:

NLW: l’entrée (Mot amazighe).

ID: Identifiant de l’entrée.

UW: (Universal Word) Mot universel.

ATTR: la liste des traits sémantiques, morphologiques (par exemple : paradigmes flexionnels), et syntaxiques (cadres de sous-catégorisation).

FLG: Code de la langue accordé par ISO 639-3 (Ber pour la langue Berbère).

FRE: la fréquence d’occurrence du NLW dans un texte.

PRI: la priorité du NLW lors de la génération de la langue.

La construction du dictionnaire ne se complète qu’avec la présence des traits

linguistiques : paradigmes flexionnels et cadres de sous-catégorisation

parmi la liste des attributs.

Dans la suite de cette partie, nous allons présenter les paradigmes

flexionnels et les cadres de sous-catégorisations amazighes que nous avons

identifiés et formalisés.

Page 6: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

3.1. Formalisation des paradigmes flexionnels amazighes

La langue amazighe est une langue morphologiquement riche, son système

flexionnel est complexe. En effet la formation des mots fléchis amazighes

fait appel soit à l’un de ces procédés : préfixation, suffixation ou bien

infixation, soit à la combinaison de ces trois procédés.

Les mots amazighes sont classés en neuf catégories lexicales : nom, verbe,

adverbe, préposition, pronom, conjonction, interjection, numéral et particule

(Boukhris et al., 2008; Ataa Allah et al., 2014). Puisque, en amazighe, les

conjonctions, les particules, les adverbes, les prépositions, les pronoms, et

les interjections sont invariants, nous ne pourrons pas parler de processus

flexionnel pour ces catégories. Dans cette partie, nous allons présenter les

paradigmes flexionnels des noms et des verbes amazighes que nous avons

formalisés (Taghbalout et al., 2016)

3.1.1. Paradigmes flexionnels nominales

La construction des paradigmes flexionnels de la catégorie nominale a

présenté pour nous un vrai challenge, étant donné qu’il existe plusieurs

formes de pluriels et qu’il y a un manque de travaux sur la classification des

noms amazighes par rapport à la forme du pluriel, l’état d’annexion et la

forme féminine.

En se basant sur des heuristiques et sur les travaux de (Boukhris et al., 2008;

Nejme et al., 2012; Raiss et Cavalli-Sforza, 2012), nous avons pu construire,

dans un premier niveau (Fig. 2), des classes lexicales des noms ayant la

même forme du pluriel. Dans un deuxième niveau, nous avons créé des sous-

classes pour chaque classe construite dans le niveau 1 mais cette fois suivant

la forme de l’état d’annexion et du genre. Il est à noter qu’un nom amazighe

peut appartenir à plusieurs classes à la fois selon sa variété régionale.

Page 7: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Fig. 2 : Méthode de création des classes de noms amazighes

En procédant de cette manière, nous avons pu identifier 90 classes

nominales, et du coup, nous avons formalisé 90 paradigmes flexionnels

(Taghbalout et al., 2015). La table ci-dessous présente, à titre d’exemple, les

règles flexionnelles du paradigme M49 dont appartient le nom "ⴰⵙⵍⵎⴰⴷ"

[Instituteur].

“Tab. 1” : Règles flexionnelles du paradigme M49

Règles flexionnelles Explication Forme fléchie

MCL&SNG&NOM: =0>""; Pas de changement dans le cas où

le nom est au masculin, singulier,

et à l’état libre

ⴰⵙⵍⵎⴷ

MCL&PLR&NOM:="ⵉ"<1,0>"ⵏ"; Changement de la première lettre

par "ⵉ" et suffixation de "ⵏ"

lorsque le nom est au masculin,

pluriel, et à l’état libre

ⵉⵙⵍⵎⴰⴷⵏ

MCL&SNG&CTS: = "ⵓ"<1;

Changement de la première lettre

par "ⵓ" lorsque le nom est au

masculin, singulier, et à l’état

d’annexion

ⵓⵙⵍⵎⴰⴷ

Page 8: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

MCL&PLR&CTS: ="ⵉ"<1, 0>"ⵏ";

Changement de la première lettre

par "ⵉ" et suffixation de "ⵏ"

lorsque le nom est au masculin,

pluriel, et à l’état d’annexion

ⵉⵙⵍⵎⴰⴷⵏ

FEM&SNG&NOM:="ⵜ"<0,0>"ⵜ";

Préfixation de la lettre "ⵜ" et

suffixation de la lettre "ⵜ" lorsque

le nom est à l’état libre, au

féminin, et au singulier

ⵜⴰⵙⵍⵎⴰⴷⵜ

FEM&SNG&CTS: ="ⵜ"<1, 0>"ⵜ";

Changement de la première lettre

par "ⵜ" et suffixation de "ⵜ"

lorsque le nom est à l’état

d’annexion, au féminin, et au

singulier

ⵜⵙⵍⵎⴰⴷⵜ

FEM&PLR&NOM:="ⵜⵉ"<1,0>"ⵉⵏ";

Changement de la première lettre

par "ⵜⵉ" et suffixation de "ⵉⵏ"

lorsque le nom est à l’état libre,

au féminin, et au pluriel

ⵜⵉⵙⵍⵎⴰⴷⵉⵏ

FEM&PLR&CTS:="ⵜ"<1,0>"ⵉⵏ";

Changement de la première lettre

par "ⵜ" et suffixation de "ⵉⵏ"

lorsque le nom est à l’état

d’annexion, au féminin, et au

pluriel

ⵜⵙⵍⵎⴰⴷⵉⵏ

Légende :

“a”<0;= Préfixation du caractère “a”;

“a”<1;= Substitution de l’initial par le caractère “a” ;

0>"a";= Suffixation du caractère “a”;

MCL : Masculin; FEM : Féminin; CTS : Etat d’annexion ; NOM : Etat libre

3.1.2. Paradigmes flexionnels verbales

La génération flexionnelle du verbe amazighe donne lieu à 46 formes

fléchies. Le mode participiale (PTP) renvoie 4 formes, le mode impératif

(IMP) renvoie 6 formes et le mode indicatif (IND) renvoie 36 formes (9

formes distinctes pour chacun des quatre aspects suivants : aoriste, accompli,

accompli négatif et l’inaccompli).

Page 9: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Pour formaliser les paradigmes flexionnelles de la catégorie verbale, nous

nous sommes basés sur la classification des verbes proposée par

(Laabdelaoui et al., 2012), adoptée et étendue par (Ataa Allah et

Boulaknadel, 2014), selon cette classification, les verbes sont classés en 31

classes selon les oppositions aoriste/accompli et aoriste/inaccompli. Notre

méthodologie de classification vise à extraire de nouvelles sous-classes de

chacune de ces 31 classes de telle façon, chaque sous-classe rassemble tous

les verbes ayant les même règles morphotactiques et morphophonologiques

de génération de leurs formes conjuguées. Le schéma ci-dessous illustre

notre méthodologie de création des sous-classes verbales.

Fig. 3 : Processus de création des classes verbales amazighes

A titre d’exemple, nous avons fait sortir à partir de la classe N° 2 trois autres

sous-classes 2-1, 2-2, et 2-3 ; les verbes appartenant à ces classes ne

partagent pas les mêmes règles morphotactactiques de génération des

formes aspectuelles Accompli négatif et Inaccompli.

Page 10: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

“Tab. 2” : Les sous-classes de la classe 2

Classe Aspect Procédé morphotactique de

génération des aspects

2-1 Accompli négatif Infixation pré-finale de ⵉ

Inaccompli Préfixation de ⵜⵜ

2-2 Accompli négatif Pas de changement

Inaccompli Préfixation de ⵜⵜ, et dégémination

2-3 Accompli négatif Pas de changement

Inaccompli Préfixation de ⵜⵜ

Le nombre de classes verbales que nous avons pu formalisé jusqu’à

maintenant est 58 paradigmes flexionnels verbales (Taghbalout et al., 2015).

Il est à noter qu’un verbe amazighe peut appartenir à plusieurs classes à la

fois selon le sens qu’il porte et aussi selon sa variété régionale.

La table « Tab.3 » présente un extrait des règles flexionnelles responsables

de la génération de la conjugaison du verbe ‘ⴰⵡⴹ’ (arriver) à l’accompli

négatif (PFV&NEG).

“Tab. 3” : Extrait des règles flexionnelles du paradigme M154

Verbe

Règles flexionnelles UNL

verbe

conjugué

‘ⴰⵡⴹ’

[awd]

arriver

1PS&PFV&NEG&IND:= "ⵓ"<1, "ⵉ"< [-

1], 0> "ⵖ";

ⵓⵡⵉⴹⵖ

2PS&PFV&NEG&IND:= "ⵓ"<1,"ⵉ"<[-1],

"ⵜ"<0, 0>"ⴷ";

ⵜⵓⵡⵉⴹⴷ

3PS&MCL&PFV&NEG&IND:=

"ⵓ"<1,"ⵉ"<[-1 ] , "ⵢ"<0;

ⵢⵓⵡⵉⴹ

3PS&FEM&PFV&NEG&IND:="ⵓ"<1,"ⵉ

"<[-1], "ⵜ"<0;

ⵜⵓⵡⵉⴹ

1PP&PFV&NEG&IND:="ⵓ"<1,"ⵉ"<[-1] ,

"ⵏ" <0;

ⵏⵓⵡⵉⴹ

Page 11: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

2PP&MCL&PFV&NEG&IND:= "ⵓ" <1,

"ⵉ"<[-1], "ⵜ"<0,0>"ⵎ";

ⵜⵓⵡⵉⴹⵎ

2PP&FEM&PFV&NEG&IND:="ⵓ"<1,

"ⵉ"<[-1], "ⵜ"<0, 0>"ⵎⵜ";

ⵜⵓⵡⵉⴹⵎⵜ

3PP&MCL&PFV&NEG&IND:="ⵓ"<1,

"ⵉ" <[-1], 0>"ⵏ";

ⵓⵡⵉⴹⵏ

3PP&FEM&PFV&NEG&IND:="ⵓ"<1,"ⵉ

"< [-1],0> "ⵏⵜ";

ⵓⵡⵉⴹⵏⵜ

Légende :

1PP : 1ère personne du pluriel ; PFV : Accompli ; IND : le mode indicatif; FEM : féminin ; MCL: masculin

“a”<0;= Préfixation du caractère “a”;

“a”<1;= Substitution de l’initial par le caractère “a” ;

0>"a";= Suffixation du caractère “a”;

Dans le formalisme UNL, l’ordre d’apparition des règles est important ;

Comme le décrit la table ci-dessus, chaque règle flexionnelle exprime en

premier lieu les règles morphotactiques pour avoir le radical aspectuel,

ensuite les règles morpho-tactiques pour générer les indices de personnes

suivant le mode et finalement les règles morpho-phonologiques. Toutes ces

règles sont combinées, l’une après l’autre d’une manière linéaire pour

générer la flexion désirée.

3.2. Formalisation des cadres de sous-catégorisation amazighes

La sous-catégorisation définit le nombre et le type d’arguments syntaxiques

(spécificateur, complément, modificateur, adjoint, ...) qui coexistent avec la

forme de base (le constituant) pour constituer un syntagme. Jusqu’à présent,

nous avons identifié et formalisé 22 cadres de sous-catégorisation à savoir

des cadres de sous-catégorisation verbales, prépositionnelles, adverbiales, …

(Taghbalout et al., 2015)

Page 12: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

“Tab. 4” : Exemples de cadre de sous-catégorisation amazighes1

Cadres de Sous-

catégorisation Explication Exemple

VS (NP,ANM); Les verbes admettant des

sujets animés

ⵙⴼⵍⴷ ⵉⵢⵉ !

‘écoute moi’

VC (VH([ⴰⴷ])); Les verbes modaux

amazighes d’obligation

admettant un syntagme

verbal comme complément

précédé par ⴰⴷ

ⵉⵍⴰⵣⵎ ⴰⴷ ‘il faut que’

ⵉⵍⴰⵣⵎ ⴰⴷ ⵢⴰⵣⵏ ⵉⴷⵔⵉⵎⵏ ⵉ

ⴱⴰⴱⴰⵙ ‘Il doit envoyer de l’argent à son père’

AC (PH ([ⵏ])); Les adverbes admettant un

complément précédé par la

préposition ‘ⵏ’

ⴱⵕⵕⴰ ⵏ ‘à l’extérieur de’

ⵉⴼⴼⵓⵖ ⵙ ⴱⵕⵕⴰ ⵏ ⵍⵎⴷⵉⵏⵜ ‘Il est allé à l’extérieur de la ville’

PC (NP, NOM); Les prépositions admettant

un syntagme nominale à

son état libre comme

complément

ⴱⵍⴰ ‘sans’

ⵉⵛⵛⴰ ⴱⵍⴰ ⴰⵎⵢⴰ ‘il a mangé

gratuitement’

PS (PH([ⵙ])); Les syntagmes

prépositionnels admettant

la préposition ‘ⵙ’ comme

spécificateur

ⵡⴰⴷⴷⴰⵢ, ⵏⵏⵊ, ⴷⴰⵔ, …

ⵙ ⵏⵏⵊ ⵉ ⵡⴰⵎⴰⵏ ‘Au-dessus de

l’eau’

4. Construction des règles de transformation UNL-Amazighe

Le processus de génération des phrases amazighes à partir des graphes

sémantiques UNL fait appel à un ensemble de règles grammaticales, dites,

règles de transformations. Les phrases amazighes générées et les graphes

UNL sont supposés porter la même quantité d’informations en des structures

différentes. La première structure arrange les informations en une liste de

mots, alors que la deuxième les organise en un hyper-graphe. Ainsi, nous

pouvons dire que la traduction depuis une langue naturelle vers UNL et

depuis UNL vers une langue naturelle est une question de transformer les

Page 13: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

listes en des réseaux et vice-versa. L’application web EUGENE, conçue

pour la génération, suppose que cette transformation doit être effectuée

progressivement à travers la structure de données transitoire « arbre » qui

pourrait venir entre la structure réseau et la structure liste.

Le dictionnaire UNL-Amazighe et la liste des règles de transformation UNL-

amazighe sont deux fichiers séparables que nous chargeons sur l’outil de

déconversion EUGENE pour pouvoir générer des phrases amazighes à partir

de tout document UNL. Nous illustrons dans ce qui suit le processus de

déconversion du document UNL suivant :

[S: S#1]

{org}

He gave her a book

{/org}

{unl}

agt(give :03.@past, 00 :01.@3.@male)

adr(give :03.@past, 00:05.@3.@female)

obj (give :03.@past, book :07.@3.@indef)

{/unl}

[/S]

L’exemple ci-dessus présente le cas d’une simple phrase UNL, elle comporte

trois relations universelles obj, agt, et adr :

obj : indique la chose qui est affectée directement par un évènement

ou par un état

agt : indique la chose qui initie une action

adr : indique la personne recevant quelque chose (complément

d’objet indirect)

Les attributs qui sont attachés aux UWs sont :

@past : le temps passé de l’UW give(icl>do) ‘donner’

Page 14: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

@3 : La troisième personne

@male : le genre masculin

@female : le genre féminin

@indef : l’article accompagné au nom est indéfini

Le graphe correspondant à la phrase UNL ci-dessus est :

Fig. 4 : Graphe UNL correspondant

Le processus de génération commence par parcourir le dictionnaire

UNL-Amazighe pour chercher et extraire les mots amazighes

équivalents aux mots universels du graphe UNL. Dans le cas du

graphe ‘Fig. 4’, voici les entrées du dictionnaire extraites :

[ⴰⴷⵍⵉⵙ]{}"book"(LEX=N,POS=NOU,LST=WRD,GEN=MCL,NUM=SNG,CAS=NOM,

PAR=M6,FRA=Y0) <Ber,0,0>;

[ⴼⴽ]{}"give"(LEX=V, POS=VER, TRA=NTST, PAR=M162, FRA=Y0) <BER,0,0>;

Après ce stade du mapping lexical, vient la phase d’application des règles de

transformations UNL-amazighe adéquates sur ces entrées lexicales pour

prendre en considération lors de la génération l’ordre syntaxique et la flexion

morphologique.

Ainsi, la phrase amazighe générée à partir du graphe UNL « Fig.4 » est

«ⵉⴼⴽⴰ ⵜⵜ ⴰⴷⵍⵉⵙ» ‘il lui a donné un livre’.

Page 15: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Fig. 5 : La phrase amazighe générée à partir du graphe UNL ‘Fig. 4’

Parmi les règles de transformations, elles existent certaines qui sont

indépendantes de la langue et d’autres qui lui sont propres. Jusqu’à présent,

nous avons pu implémenter 70 règles de transformation spécifiques à la

langue amazighe. La table ci-dessous présente quelques exemples de règles

grammaticales que nous avons implémentées.

“Tab. 5” : Exemples de règles de transformation de génération (UNL -amazighes

Règles de transformation Explication

agt(%x,V;%y,N):=VS(%x,+PER=%y,+GEN=%y,+NUM=

% y;%y, +CAS= CTS);

La relation sémantique Agent « agt »

entre le nœud %x de catégorie

grammaticale verbale et un autre %y

de catégorie nominale devient une

relation syntaxique (VS) dont le nom %

y est le spécificateur du verbe et prend

la marque de l’état d’annexion (CTS),

le genre et le nombre à partir du verbe.

obj(%x,V;%y,N):=VC(%x;%y,-CAS,+CAS= NOM); La relation sémantique Objet « obj »

entre le nœud %x de catégorie

Page 16: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

grammaticale verbale et un autre %y

de catégorie nominale devient une

relation syntaxique VC dont le nom %

y est le complément du verbe, qui reste

à l’état libre (NOM)

rsn(%x,V;%y,N):=VA(%x;PC([ⵙ],LEX=P,POS=PRE;%y,-

CAS, +CAS= CTS));

La relation sémantique de cause « rsn »

est transformée en la relation

syntaxique VA (Adjoint du verbe) dont

le nom %y est la cause de l’action du

verbe %x introduit par la préposition ⵙ

pos(%x,N;%y,D):=NS(%x;%y, DIS=AFT); La relation sémantique de possession

« pos » est transformée en une relation

syntaxique NS (spécificateur de nom)

dont le déterminant possessif se place

immédiatement après le nom

Conclusion

Les ressources linguistiques nécessaires à la traduction automatique

comprennent toujours un dictionnaire et des règles grammaticales.

L’élaboration de celles-ci est un processus incrémental et long. Nous avons

divisé notre projet de traduction automatique en deux modules : un module

d’analyse et un module de génération. Le présent article décrit le module de

génération. Dans un premier temps, nous avons abordé le processus de

réalisation du dictionnaire de génération UNL-Amazighe, en l’occurrence la

formalisation des paradigmes flexionnels et les cadres de sous-

catégorisation. Et dans un second temps, nous avons discuté les règles

grammaticales de génération UNL-amazighe. Actuellement, nous disposons

d’un dictionnaire de 2600 lemmes et d’une base de règles contenant 70

règles de transformation. Nous sommes en train de préparer un corpus de test

pour évaluer l’exactitude de la grammaire implémentée en calculant la F-

mesure ; en parallèle nous continuons à alimenter notre dictionnaire et à

élaborer de nouvelles règles de transformation UNL-amazighe.

Page 17: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Références

Ataa Allah, F., Boulaknadel, S., Souifi, H. (2014). ‘Jeu d’Etiquettes Morphosyntaxiques de la Langue Amazighe’, Asinag, n°9, pp. 171-184, ISSN : 2028-5663.

Ataa Allah, F. and Boulaknadel S. (2014). ‘Amazigh Verb Conjugator’. 9th International Conference on Language Resources and Evaluation (LREC 2014), Reykjavik, Iceland, May 26-31 2014, pp. 1051-1055.

Boukhris, F., Boumalk, A., El Moujahid, E., Souifi, H. (2008). ‘La nouvelle grammaire de l’amazighe’, IRCAM, Rabat, Maroc.

Laabdelaoui R. , Boumalk A. , Iazzi, E.M. , Souifi H., Ansar K. (2012). ‘Manuel de conjugaison de l’amazighe’ . IRCAM, Rabat, Morocco.

Nejme, F., Boulaknadel, S., Aboutajdine, D. (2012). ‘Toward an Amazigh language processing’, the 3

rd Workshop on South and Southeast Asian Natural

Language Processing, Mumbai, India.

Raiss, H. and Cavalli-Sforza, V. (2012). ‘Amazigh Nouns Morphological Analyzer’, 5

ème Conférence internationnale sur les TIC pour l’amazighe, Rabat,

Maroc.

Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh Noun Inflection in the Universal Networking Language’. International Journal of Education and Information Technologies.

Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh verb in the Universal Networking Language’. 12

th ACS/IEEE International Conference on

Computer Systems and Applications AICCSA, Marrakech, Morocco .

Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh Representation in the UNL Framework: Resource Implementation’. the International Conference on Advanced Wireless Information & Communication Technologies. Procedia Computer Science.

Taghbalout, I., Ataa Allah, F., El Marraki, M. (2016). ‘Towards UNL based machine translation for Amazigh language’. International Journal of Computational Science and Engineering;

Teixeira M. R. and Avetisyan V. (2009). ‘Generative and Enumerative Lexicons in the UNL Framework’, in proceedings of 7

th International

Page 18: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Taghbalout Imane et al.

Conference on Computer Science and_Information Technologies, (CSIT 2009), Yerevan, Armenia.

Uchida, H., Zhu, M., Senta, T.D. (1999), ‘UNL: A gift for a millinnium’. Institute of Advanced Studies, United Nations University, Tokyo.

Uchida, H. and Zhu, M. (2004) ‘The Universal Networking Language (UNL) Specification Version 3.0’. Edition 3, Technical Report, UNU.

Page 19: Vers la construction des ressources linguistiques …tal.ircam.ma/conference/data/papers2016/26.pdf · Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases

Annexe

Symbole Explication

VS

Spécificateur du verbe

VC

Complément du verbe

AC

Complément de l’adverbe

NP

Syntagme nominal

PC

Comlément d’une préposition

ANM

Etre animé

NOM

Etat libre

NS

Spécificateur de nom

VH

La tête du syntagme verbale

PH

La tête du syntagme prépositionnel