Systemedinformationarabe

83
Mémoire de fin d’études Présenté pour l’obtention du : Diplôme de Master Systèmes d’Information Réseaux et Multimédia Discipline : Informatique Spécialité : Systèmes d’Information Multimédias et Décisionnels/ Réseaux et Systèmes Présenté par : LATIF Mounaim Sous la direction du : Pr : Lechger Abd El Mounaim Système de recherche d’information Arabe Université Sidi Mohamed Ben Abdellah Faculté des Sciences Dhar Mehraz Fès (FSDM) Master Systèmes d’Information Réseaux et Multimédia (SIRM)

Transcript of Systemedinformationarabe

Page 1: Systemedinformationarabe

Mémoire de fin d’études

Présenté pour l’obtention du :

Diplôme de Master Systèmes d’Information Réseaux

et Multimédia

Discipline : Informatique

Spécialité : Systèmes d’Information Multimédias et Décisionnels/ Réseaux et Systèmes

Présenté par : LATIF Mounaim

Sous la direction du : Pr : Lechger Abd El Mounaim

Système de recherche d’information Arabe

Université Sidi Mohamed Ben Abdellah

Faculté des Sciences Dhar Mehraz – Fès (FSDM)

Master Systèmes d’Information Réseaux et Multimédia (SIRM)

Page 2: Systemedinformationarabe

Système de recherche d’information arabe

1

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Résumé

La recherche d’information reste toujours un sujet d’actualité malgré les diverses

solutions qui existe, on cherche toujours des améliorations pour la pertinence des résultats,

l’une des pistes intéressante dans ce cadre est le traitement des langues complexes et leurs

influencent sur les systèmes de recherche d’information. Dans notre travail on va étudier la

recherche d’information appliquée à la langue arabe qui est considérée comme l’une des

langues avec une grande complexité morphologique.

Ce travail est réalisé dans le laboratoire LISQ (Laboratoire d’informatique, statistique

et qualité) au sein de la Faculté des Sciences Dhar Mehraz sous la direction du Pr

Abdelmonaime LACHKAR (ENSA-Fès). Il s’inscrit dans le cadre de l’amélioration de la

recherche d’information arabe. On va traiter d’abord les différents aspects théoriques et

algorithmiques (lemmatisation, classification etc ...) de la recherche d’information puis on

passera à la mise en œuvre avec un prototype de SIRA (Système de recherche d’information

arabe)

Mots Clés : Système de Recherche d’information, Langue Arabe, Lemmatisation, Clustering.

Page 3: Systemedinformationarabe

Système de recherche d’information arabe

2

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Abstract

Seeking information is still a hot topic, despite the various existing solutions, we

always seek improvements to the results pertinence. One interesting track in this context is the

treatment of complex languages and their influence on information retrieval systems. In this

work we will study the retrieval of information in Arabic language which is considered one of

the complex morphology languages.

This work is done in the CLSQ (Computing laboratory, statistics and quality)

laboratory, in the Faculty of Sciences Dhar Mehraz under the direction of Professor

Abdelmonaime LACHKAR (ENSA-Fès). It is part of improving Arabic information

retrieval. We will treat first the different theoretical and algorithmic aspects of research

(lemmatisation, classification etc ...), then we proceed to the implementation of a prototype

with AIRS (Arabic information retrieval system)

Keywords: Arabic information retrieval, Stemming , Arabic Langue , clustering

Page 4: Systemedinformationarabe

Système de recherche d’information arabe

3

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

مــــلخص هناك عدد قليل فقط نسبيالكن .العربية هي واحدة من اللغات األكثر انتشارا في العالم اللغة

.العربية المعلومات وتصنيف النصوص عن في مجال البحث دراساتمن ال

كلية بتبر علوم الكمبيوتر واإلحصاء والجودة( مخ( LISQ في مختبر هذا العملتم قد و

رسة االمدب . ذ اعبد المنعم لشقر أست ذ ااألست فشرا إ حثت ظهر المهراز بفاسالعلوم

البحث عن المعلومات، وبشكل عموما في مجال يدخل هوو. فاسب ةقييالتطب م لوللع يةطنوال

تقنيات تصنيف و البحث عن الجذر و الجذع أساليب نجاعة دراسةمجال في دقةأكثر

.للغة العربيةبا المعلوماتمردودية أنظمة البحث عن في تحسينالنصوص

Page 5: Systemedinformationarabe

Système de recherche d’information arabe

4

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Remerciement

Au terme de ce travail, j’ai l’honneur d’exprimer mes vifs remerciements,

non seulement par nécessité, mais par respect et profonde gratitude, à mes

encadrants, Messieurs ABDELMOUNAIME LACHKAR et SAID

OUATIK EL ALAOUI pour leur aide précieuse et leurs conseils qu’ils m’ont

fourni au cours de ce projet, et aussi pour tout le temps qu’ils m’ont octroyé.

Je remercie également mes parents, pour leur soutien et leur compagnie,

qui m’ont permis de réaliser le projet dans les meilleures conditions possibles.

je ne peux oublier mes amis Youssef Dehbi EL ALAOUI, Jalal Triak,

Amine Essamri ,Imadeddine Mountasser et Selouane Mohammed. Pour leurs

soutiens et leurs aides.

Un sincère remerciement aussi à tout le corps professoral et

administratif de la Faculté des Sciences Dhar ElMahraz de Fès.

Page 6: Systemedinformationarabe

Système de recherche d’information arabe

5

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Introduction Générale

L’objectif principal de la recherche d’information c’est de donner à l’utilisateur un

accès simple à l’information, un système de recherche d’information traite l’information

d’une manière adéquate, puis fournit à l’utilisateur le résultat qui doit correspondre à son

besoin exprimé par une requête. Dans certaines langues, telles que l’arabe, les moyens

déployés pour la recherche d’information ne semblent avoir les mêmes performances que

dans d’autres langues. Cette carence est probablement due à l’introduction tardive de

l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part c’est la

complexité de la langue qui influence négativement les résultats dans un système de recherche

d’information.

Ce sujet s’inscrit dans le cadre de la recherche d’information appliqué à la langue

arabe. L’objectif de notre travail c’est d’abord de donner une vue détaillée sur le traitement

automatique de la langue arabe et les différentes éléments qui compose un système de

recherche d’informations puis de réaliser un prototype pour le SRIA.

Organisation du mémoire

Ce travail se compose de 5 chapitres :

- Le premier chapitre présente un état de l’art sur la langue arabe et la recherche

d’informations.

- Le second chapitre comporte une étude morphologique de la langue arabe.

- Le troisième définit la phase de prétraitement.

- Le quatrième définit la notion de clustering avec quelques algorithmes.

- Et le dernier, consacré pour les détails du prototype de SIRA réalisé ainsi la discussion

des résultats.

Page 7: Systemedinformationarabe

Système de recherche d’information arabe

6

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Table des Matières

Chapitre 1 : Etat de l’art ................................................................................................................ 9

1 - Introduction .................................................................................................................................. 10

2 - Motivation et Problématique ....................................................................................................... 11

3 - La Recherche D’informations ....................................................................................................... 12

3.1 – Processus de recherche d’informations ................................................................................ 13

3.2 - Prétraitement et La Lemmatisation ...................................................................................... 13

1.1 - Les Modèles de Recherche d’information ............................................................................ 14

1.2 - Classification et Clustering des Documents .......................................................................... 15

2 – Exemple de SRI (Moteur de recherche)....................................................................................... 16

3 - Conclusion .................................................................................................................................... 17

Chapitre 2 : La langue Arabe et l’analyse morphologique .............................................................18

1 - Introduction .................................................................................................................................. 19

2 - La langue Arabe et ses variantes .................................................................................................. 20

3 - Grammaire et caractéristique de l’arabe .................................................................................... 21

3.1 Voyellation ............................................................................................................................... 23

3.2 Flexion ..................................................................................................................................... 23

3.3 Agglutination ........................................................................................................................... 24

3.4 Pro-drop (= à sujet pronominal vide) ...................................................................................... 25

4 - Les parties de discours en arabe ................................................................................................. 25

4.1 Les parties de discours classiques ........................................................................................... 25

4.2 Classification récentes des unités lexicales de l’arabe ............................................................ 26

5 - Ressources linguistiques : état des lieux ..................................................................................... 27

5.1 Lexiques ................................................................................................................................... 28

5.2 Corpus ...................................................................................................................................... 28

6 – Conclusion ................................................................................................................................... 31

Chapitre 3 : Prétraitement des documents arabe .........................................................................33

1 – Introduction ................................................................................................................................. 34

2 – Représentation des documents................................................................................................... 34

3 – Prétraitent et La Lemmatisation .................................................................................................. 38

3.1 – Prétraitement nécessaires .................................................................................................... 38

3.2 – Lemmatisation (Stemming) .................................................................................................. 39

4 – Conclusion ................................................................................................................................... 43

Page 8: Systemedinformationarabe

Système de recherche d’information arabe

7

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 4 : Regroupement des documents (Clustering) ...............................................................44

1 - Introduction .................................................................................................................................. 45

2 - Différentes approches en clustering ............................................................................................ 46

2.1 - Structures des résultats de clustering ................................................................................... 46

2.2 – Les Méthode de clustering ................................................................................................... 48

2.3 – Analyse Sémantique Latente ............................................................................................... 56

2.4 - Critères d’évaluation de la qualité d’un clustering ............................................................... 59

3 – Conclusion ................................................................................................................................... 61

Chapitre 5 : Prototype d’un Système de recherche d’information Arabe .......................................63

1 – Introduction ................................................................................................................................. 64

2 – Architecture Fonctionnelle du système ..................................................................................... 64

2.1 - Module de Prétraitement Lemmatisation ............................................................................. 65

3 – Analyse est conception ................................................................................................................ 69

3.1 - Diagramme de cas d’utilisation ........................................................................................... 69

3.2 – Diagramme de classe et analyse .......................................................................................... 70

4 – Fonctionnalités du système et résultats ...................................................................................... 73

4.1 – Description du Système ........................................................................................................ 73

4.2 Discutions des résultats ........................................................................................................... 75

5 - Conclusion .................................................................................................................................... 77

Page 9: Systemedinformationarabe

Système de recherche d’information arabe

8

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Table des Figures

FIGURE 1.1 : SYSTÈME DE RECHERCHE D’INFORMATION .......................................................................................... 13

FIGURE 2.1 : AMBIGUÏTÉ CAUSÉE PAR L’ABSENCE DE VOYELLES POUR LES UNITÉS LEXICALES كتب ET 23 ............... مدرسة

FIGURE 2.2 : EXEMPLE DES FLEXIONS DANS LA LANGUE ARABE ................................................................................ 24

FIGURE 2.3 : EXEMPLE REPRÉSENTE L’AGGLUTINATION DANS LA LANGUE ARABE ...................................................... 24

FIGURE 2.4 : CLASSIFICATION DES UNITÉS LEXICALES PROPOSÉE PAR [2] ................................................................. 27

FIGURE 2.5 COMPOSITION DU CORPUS NEMLAR .................................................................................................... 31

FIGURE 3.1 : APPROCHE « ROOT-BASED » POUR LA LEMMATISATION ........................................................................ 42 FIGURE 4.1 : EXEMPLE D’UN JEU DE DONNÉES DÉCRITES PAR DEUX ATTRIBUTS ET CONTENANT TROIS CLUSTERS

IDENTIfiABLES VISUELLEMENT. ........................................................................................................................ 45

FIGURE 4.2 : EXEMPLE DE RÉSULTAT HIÉRARCHIQUE. ............................................................................................. 48

FIGURE 4.3 : REPRÉSENTATION GRAPHIQUE D’UN EXEMPLE DE DÉROULEMENT DE L’ALGORITHME K-MEANS. ........... 49

FIGURE 4.4 : ALGORITHME DE K-MEDOIDES ........................................................................................................... 52

FIGURE 4.5 : ALGORITHM PAM (PARTITIONING AROUND MEDOIDS) ...................................................................... 52

FIGURE 4.6 : ILLUSTRATION DES DIFFÉRENTES STRATÉGIES DE REGROUPEMENT DE CLUSTERS EN CLUSTERING

HIÉRARCHIQUE. .............................................................................................................................................. 54

FIGURE 4.7 : FONCTION DE SIMILARITÉ POUR LE SUFFIX TREE CLUSTERING ............................................................ 55

FIGURE 4.8 : DÉCOMPOSITION EN VALEURS SINGULIÈRES -Y EST L'APPROXIMATION DE X ......................................... 58

FIGURE 4.9 : ALGORITHME DE LINGO CLUSTERING ............................................................................................... 59

FIGURE 4.10 : ILLUSTRATION DU CALCUL DU COEFFICIENT SILHOUETTE POUR CHAQUE OBJET D’UN CLUSTERING. .... 61

FIGURE 5.1 : ARCHITECTURE FONCTIONNELLE DU SYSTÈME .................................................................................... 65

FIGURE 5.2 : STRUCTURE D’INDEX DE LUCENE ....................................................................................................... 68

FIGURE 5.3 DIAGRAMME DE CAS D’UTILISATION ...................................................................................................... 70

FIGURE 5.4 : DIAGRAMME DE CLASSE D’UN ARABIC ANALYSER BASÉ SUR LE LEMMATISEUR ASSOUPLIT ..................... 71

FIGURE 5.5 : DIAGRAMME DE CLASS DU MODULE D’INDEXATION .............................................................................. 72

Table des Formules

FORMULE 4.1 : SOMME DES COEFFICIENTS DANS FUZZY C-MEANS ............................................................................ 50

FORMULE 4.2 : DEGRÉ D’APPARTENANCE DANS FUZZY C-MEANS ............................................................................. 50

FORMULE 4.3 : CALCULE DU CENTROÏDE DANS FUZZY C-MEANS. ............................................................................. 50

FORMULE 4.4 : DEGRÉ D’APPARTENANCE NORMALISÉ DANS FUZZY C-MEANS ........................................................... 51

FORMULE 4.5 : STRATÉGIE SIMGLE-LINK POUR CALCULE DE SIMILARITÉ ................................................................... 53

FORMULE 4.6 : STRATÉGIE COMPLETE-LINK POUR CALCULE DE SIMILARITÉ.............................................................. 54

FORMULE 4.7 : STRATÉGIE AVERAGE-LINK POUR CALCULE DE SIMILARITÉ ................................................................ 54

FORMULE 4.8 : SOMME DES ERREURS AU CARRÉ ...................................................................................................... 60

FORMULE 4.9 : COEFFICIENT SILHOUETTE POUR UN OBJET ..................................................................................... 61

FORMULE 4.10 : COEFFICIENT SILHOUETTE POUR UN CLUSTERING .......................................................................... 61

Page 10: Systemedinformationarabe

Système de recherche d’information arabe

9

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 1 : Etat de l’art

Page 11: Systemedinformationarabe

Système de recherche d’information arabe

10

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

1 - Introduction

Depuis plusieurs décennies déjà, des recherches sont poursuivies dans le cadre du

traitement automatique de la langue arabe. L’un des premiers théoriciens de ce domaine,

David Cohen propose un essai d’analyse automatique dès 1961 (Cohen, 1961/1970). Partant

d’une analyse morphologique minimaliste, basée sur le principe que toute forme linguistique

arabe se traduit en schème et racine, les recherches vont se développer depuis les premiers

travaux sur le lexique et la morphologie jusqu’à la mise au point d’analyseurs automatiques,

de systèmes d’indexation, de correcteurs, etc. De nombreux projets sont en cours et il existe

des bases de données disponibles proposant des corpus divers sous forme électronique, traités

automatiquement. Un traitement automatique de l’arabe est donc non seulement possible,

mais réalisé et en cours de perfectionnement (notamment dans le domaine de la traduction

automatique).Cependant, dans le cadre bien précis de nos recherches, nous avons été amenés

à créer notre propre programme de lemmatisation. Après un exposé du problème, nous

présenterons ce logiciel, ainsi que la réflexion méthodologique qui a présidé à son élaboration.

Les premiers résultats obtenus et surtout les développements envisagés seront ensuite décrits.

Maintenant L’évolution très rapide d’Internet a conduit à révéler la RI au grand jour,

notamment par le biais des moteurs de recherche. La profusion de données numériques

disponibles a rendu indispensables des moyens de recherche performants et automatiques,

permettant à tout un chacun de trouver une information précise. Un système de recherche

d’information (SRI) doit faire face à trois types de défis à savoir, la gestion d’un volume

important d’informations, la présence de multiples supports et, finalement, le caractère

plurilingue de la Toile qui représente un enjeu considérable. Dans ce contexte, l’importance

grandissante d’autres langues que l’anglais a suscité le développement d’outils et de

techniques automatiques afin de permettre leur traitement informatique. Ce besoin n’est pas

marginal. En septembre20071, la proportion d’internautes naviguant en langue arabe était

estimée à 17,4 %. Sur cette base, nous estimons que l’utilisation de la langue arabe sur le Web

va atteindre des valeurs comparables à celle des langues européennes.

En comparaison de l’anglais ou d’autres langues indo-européennes, la langue arabe présente

des caractéristiques singulières. Ainsi, son traitement automatique doit faire face à :

Page 12: Systemedinformationarabe

Système de recherche d’information arabe

11

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité

lexicale véhiculent plusieurs informations morphosyntaxiques.

la richesse flexionnelle de l’arabe

l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène

entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre

doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses

de certains traits morphosyntaxiques comme la déclinaison, le mode, le cas.

1 - Motivation et Problématique

Dans la plupart des recherches précédentes en RI, les pionniers dans ce domaine ont

concentré leurs efforts au développement d'outils de RI sur des collections en anglais. Ensuite

graduellement, ils se sont intéressés à étudier les langues européennes et les langues

asiatiques, notamment le chinois, le japonais et le coréen. Néanmoins, toute une famille de

langues telle que l'arabe, n'a connu que peu d'intérêt par la communauté de recherche

d'information. Parallèlement, la vulgarisation de l'Internet a de plus en plus permis l'accès à

d'autres langues moins connues comme l'arabe. C'est dans cette optique que nous avons

trouvé l'intérêt de notre travail de recherche dont l'objectif est de trouver les meilleures

solutions pour améliorer la recherche de l’information arabe.

La langue arabe présente plusieurs défis au traitement automatique des langages

naturels, en grande partie, dus à sa morphologie très riche et variable. Dans cette langue, le

traitement morphologique devient particulièrement important pour la recherche d'information,

parce que la RI doit déterminer une forme appropriée d'index à partir des mots. La plupart des

études faites dans le contexte de la lemmatisation concluent que l'utilisation des termes

obtenus à partir d'une analyse morphologique est plus efficace que l'utilisation des mots sans

transformation. L'arabe, de son coté, n'a pas échappé à ce fait. La lemmatisation des mots

arabes a été une problématique majeure pour plusieurs travaux dans la RI arabe. Dans ces

travaux, des approches pour lemmatiser les mots arabes sont proposées, certaines plus souples

et d'autres plus sévères. Malgré ces études, il est encore peu clair quel type de lemmatisation

est approprié pour la recherche d'information arabe. D'une part, une lemmatisation assouplie

peut empêcher de grouper deux mots différents, mais elle court également le risque de ne pas

grouper deux mots sémantiquement semblables, menant à un rappel plus faible. D'autre part,

Page 13: Systemedinformationarabe

Système de recherche d’information arabe

12

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

une lemmatisation plus sévère peut grouper incorrectement des mots sémantiquement non

similaires dans un même index, menant à une précision plus faible.

2 - La Recherche D’informations

Le but de la recherche d’information (RI) est de développer des systèmes capables de

retrouver parmi un ensemble de documents ceux qui répondent au mieux à la requête d’un

utilisateur. Pour cela, il est important de constituer une représentation du contenu du

document et de la requête afin de procéder à un appariement plus pertinent entre eux.

L’approche souvent adoptée en RI textuelle est plutôt de chercher des représentants qui

correspondent généralement, dans le cadre de l’indexation automatique, à un ensemble

d’unités lexicales extraits des documents et requêtes, nommés termes d’indexation, pour la

langue arabe ce traitement est très complexe vu la complexité morphologique de la langue

arabe. Après il ne reste qu’à associer à chaque document (ou à chaque requête) un descripteur

(également nommé index) formé de l’ensemble des termes d’indexation extraits de son

contenu. Pour établir une correspondance entre documents et requêtes, représentés par des

descripteurs, les SRI se basent sur des modèles de RI. Ils permettent :

- d’offrir une interprétation aux descripteurs en donnant une représentation interne des

textes et des questions basée sur les termes d’indexation.

- de définir les stratégies à adopter pour comparer les représentations des documents et

des requêtes. Leur comparaison donne lieu à un score qui traduit leur degré de

ressemblance.

- de proposer éventuellement des méthodes de classement des résultats retournés à

l’utilisateur. Une fois les représentations des documents et des requêtes mises en

correspondance, le système retourne à l’utilisateur la liste des documents répondant à

sa requête. Ainsi, des méthodes et des mesures d’évaluation sont nécessaires pour

estimer la validité des résultats retournés par le système.

Page 14: Systemedinformationarabe

Système de recherche d’information arabe

13

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

2.1 – Processus de recherche d’informations

Le processus de RI a pour but d’établir une correspondance pertinente entre

l’information recherchée par l’utilisateur, représentée généralement par le biais d’une requête,

et l’ensemble des documents disponibles. Il s’articule autour de deux étapes essentielles : les

phases d’indexation et de recherche. Le processus complet est représenté en figure suivante.

L’étape d’indexation se base sur l’analyse des documents et des requêtes afin de créer une

représentation de leur contenu textuel qui soit utilisable par le SRI. Chaque document (et

requête) est alors associé à un descripteur représenté par l’ensemble des termes d’indexation

extraits. La phase de recherche a pour objectif d’apparier les documents et la requête de

l’utilisateur en comparant leurs descripteurs respectifs. Elle se base sur un formalisme précis

défini par un modèle de RI. Les documents présentés en résultat à l’utilisateur, et considérés

comme les plus pertinents, sont ceux dont les termes d’indexation sont les plus proches de

ceux de la requête.

Figure 1.1 : Schéma général Système de recherche d’information

2.2 - Prétraitement et La Lemmatisation

Il y a une autre façon pour rendre les termes d'un document plus utiles pour une

recherche efficace. Cette voie consiste en l'élimination des différences morphologiques non

significatives sémantiquement. L'idée est de fusionner les termes ayant un sens similaire avec

de petites différences sur la forme morphologique. On peut remarquer facilement que

beaucoup de mots ont des formes légèrement différentes, mais leur sens reste le même ou très

similaire. C'est notamment le cas des mots conjugués ou dérivés. Par exemple, les mots

Page 15: Systemedinformationarabe

Système de recherche d’information arabe

14

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

suivants ont des sens très similaires: informer, informés, informent, information, informateur.

Si tous ces mots sont traités séparément, le rappel de recherche sourira parce que cette

différence de forme empêche le système de retrouver un texte dans lequel un mot similaire

apparaît. Ainsi, l'idéal est d'éliminer toutes ces différences non significatives et ramener tous

ces mots à une forme identique qu'on appellera le lemme (stem) ou la racine. L'idée de

lemmatisation/troncature est d'éliminer ces indices de forme ou terminaisons à partir des

termes et de ne garder que la racine ou le lemme.

Pour la langue arabe la méthode de lemmatisation qui donne les meilleurs résultats

jusqu’ maintenant dans un système de recherche d’information c’est la lemmatisation

assouplie, il est inspiré par le processus de lemmatisation de langue anglaise, cet algorithme

se base sur l’élimination d’un ensemble de suffixes et de préfixes. Il commence par la

suppression de la lettre (و) si elle est la première lettre du mot, puis il procède à une

élimination des préfixes (فال ,كال ,وال ,ال لل , , بال ) et des suffixes (ها, ين, ون ان ,ات , ي , ة , ه , يية , يه ).

1.1 - Les Modèles de Recherche d’information

On distingue plusieurs familles de modèles de recherche d’information : les modèles basés

sur la théorie des ensembles, les modèles basés sur des principes algébriques et les modèles

basés sur les probabilités.

Les modèles booléens apparus dans les années 1950 se basent sur la théorie des

ensembles. Ainsi, un tel modèle renvoyant un ensemble de documents jugés pertinents sans en

proposer un ordonnancement est écarté. Les modèles vectoriels reposent sur des principes

algébriques.

Le premier système vectoriel de recherche d’information apparaît dans les années 1970

avec le système SMART [19]. Dans le modèle vectoriel, des vecteurs de poids représentent

document et requête. Chaque poids dans le vecteur désigne l'importance du terme

correspondant dans le document ou dans la requête. Pour qu'un vecteur prenne une

signification, il faut préalablement définir un espace vectoriel. L'espace vectoriel se définit par

l'ensemble de termes que le système a rencontré durant l'indexation, c’est-à-dire l’ensemble

des termes de la collection de documents.

Page 16: Systemedinformationarabe

Système de recherche d’information arabe

15

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Le premier modèle probabiliste apparaît au début des années 1960 avec Maron et Kuhns

[17]. Le principe consiste à présenter les résultats de recherche d’un système de recherche

d’information dans un ordre basé sur la probabilité de pertinence d’un document vis-à-vis

d’une requête. Trois paramètres entrent dans le modèle probabiliste : la requête Q, le

document D et la pertinence R. Le modèle classique de Robertson est fondé sur le ratio de

vraisemblance entre P(R=1 | D,Q) et P(R=0 | D,Q). Ces deux probabilités signifient

respectivement : si on retrouve le document D, quelle est la probabilité d’obtenir une

information pertinente et si on retrouve le document D, quelle est la probabilité d’obtenir une

information non pertinente [Nie, 2007].Le principe s’appuie sur la détection de termes à la

fois présents dans le document et la requête. Une pondération binaire des termes est utilisée, 0

ou 1, ce qui correspond à l’absence ou la présence d’un terme dans le document ou la requête.

Pour une requête donnée, on cherche à déterminer P(R=1 | D) et P(R=0 | D). Le calcul de ces

probabilités permet le classement des documents entre eux selon leur pertinence par rapport à

la requête.

1.2 - Classification et Clustering des Documents

La classification automatique de texte implique l’attribution de documents texte dans

la collection de données tests à une classe ou catégorie prédéfinie basé sur leurs contenus.

Contrairement à la classification manuelle, qui consume le temps et exige une grande

précision, la classification automatique permet au processus de classification d’être plus

rapide et efficace puisqu’elle catégorise les documents automatiquement. Le but de la

classification est d’attribuer des étiquettes de classe à des documents non étiquetés. Chaque

document peut être dans de multiple, exactement une, ou aucune catégorie. Dans notre cas on

se concentrera dans le cas d’attribution d’une seule étiquette.

Le Clustering (regroupement) des documents vise à mettre les documents similaires

ensemble. En ce faisant, on veut atteindre un des buts suivants:

Le nombre de clusters, par rapport au nombre de documents, est beaucoup plus

petit. Ainsi, on peut accélérer le processus de recherche.

Page 17: Systemedinformationarabe

Système de recherche d’information arabe

16

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Si un document est pertinent à une requête, alors les documents similaires ont

plus de chance à être pertinents aussi. Ainsi, les Cluster peuvent être aussi vus

comme un moyen d'expansion.

Finalement, les réponses du système peut être regroupées, plutôt qu'être mises

dans une liste individuellement. L'avantage de cette présentation de résultats

est que l'utilisateur peut avoir une idée globale des résultats que le système a

trouvés assez rapidement.

Avec le progrès rapide sur les matériels d'informatique, le premier avantage semble

beaucoup moins important maintenant. Les deux autres restent toujours d'actualité.

On peut deviser les méthodes de Clustering en deux groupe : Hiérarchique et non-

Hiérarchique Le premier type d'algorithme essaie de créer une hiérarchie des clusters, les

documents les plus similaires sont regroupés dans des clusters aux plus bas niveaux, tandis

que les documents moins similaires sont regroupés dans des clusters aux plus haut niveaux.

Selon comment la hiérarchie est créée, ce type d'algorithmes peut encore se diviser en deux:

divisif ou agglomératif. En partition, on tente de diviser un grand cluster en 2 plus petits

(approche descendante). En regroupement, on tente de regrouper 2 clusters en un plus grand

(approche ascendante). Le deuxième type d'algorithmes ne crée pas une hiérarchie. Les

clusters sont au même niveau.

Il est important de déterminer le cluster à découper ou les clusters à regrouper dans une

approche hiérarchique, et de déterminer une fonction de similarité dans une approche non-

hiérarchique. Les mesures utilisées varient. Quelques mesures souvent utilisées sont:

Similarité de clusters: elle est définie comme la similarité- entre les centroïdes de

ces clusters (le centroïde est le vecteur moyen de tous les éléments dans le cluster).

ou bien entre les medoïdes de ces clusters (le medoïde est l'élément le plus au

centre du cluster).

2 – Exemple de SRI (Moteur de recherche)

Un moteur de recherche peut être défini comme un outil de recherche sur le web

constitué de « robots », encore appelés spiders, crawlers ou agents qui parcourent les sites à

intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue

des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes

(qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page

Page 18: Systemedinformationarabe

Système de recherche d’information arabe

17

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à

partir de mots-clés.

Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales :

1. L'exploration ou crawl : le web est systématiquement exploré par un robot

d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les

ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot,

comme une page d'annuaire web.

2. L'indexation des ressources récupérées, consiste à extraire les mots considérés

comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots

extraits sont enregistrés dans une base de données organisée comme un gigantesque

dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage,

qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme

significatif donné.

3. La recherche, correspond à la partie requêtes du moteur, qui restitue les résultats. Un

algorithme est généralement appliqué pour donner un poids variable aux

correspondances, afin de pouvoir présenter les résultats des recherches par ordre de

pertinence supposée.

L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe,

hyperlien...) et de la ressource (ressources liées, popularité du site...)

3 - Conclusion

Ce premier chapitre donne une idée générale sur la recherche d’information arabe et

les différents concepts de lemmatisation, classification et de clustering. Dans le chapitre

suivant on va détailler la morphologie de la langue arabe à cause de sa nature très

complexe par rapport à d’autre langue et vue qu’elle a une influence directe sur la qualité des

résultats dans un système de recherche d’information.

Page 19: Systemedinformationarabe

Système de recherche d’information arabe

18

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 2 : La langue Arabe et

l’analyse morphologique

Page 20: Systemedinformationarabe

Système de recherche d’information arabe

19

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

1- Introduction

L’arabe (alarabiya en transcription traditionnelle) est la langue parlée à l’origine par les

Arabes. C’est une langue sémitique (comme l’akkadien et l’hébreu). Au sein de cet ensemble,

elle appartient au sous-groupe du sémitique méridional. Du fait de l’expansion territoriale au

Moyen Âge et par la diffusion du Coran, cette langue s’est répandue dans toute l’Afrique du

nord et en Asie mineure. Dire langue arabe, c’est donc parler d’un ensemble complexe dans

lequel se déploient des variétés écrites et orales répondant à un spectre très diversifié d’usages

sociaux, des plus savants aux plus populaires. Mais au-delà de cette diversité, les sociétés

arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène. Elles

sont farouchement attachées à l’intégrité de leur langue, d’où l’importance de l’ASM qui

constitue le terrain commun pour cette large population. Par ses propriétés morphologiques et

syntaxiques, le traitement automatique doit faire face à :

la nature agglutinante de la langue : l’ensemble des morphèmes collés à l’unité

lexicale1 véhiculent plusieurs informations morphosyntaxiques.

la richesse flexionnelle de l’arabe.

l’absence de voyellation de la majorité des textes arabes écrits : ce phénomène

entraîne un nombre important d’ambiguïtés morphologiques. En arabe, chaque lettre

doit prendre un signe de voyellation et de surcroît les voyelles finales sont porteuses

de certains traits morpho-syntaxiques comme la déclinaison, le mode, le cas.

En outre des propriétés linguistiques, l’arabe recense un nombre de ressources

linguistiques comprenant des lexiques monolingues et multilingues ainsi que des corpus de

langue générale et des corpus de spécialité consacrés à une situation de communication ou à

un domaine de la connaissance. L’arabe compte aussi un certain nombre d’outils linguistiques

à savoir les analyseurs morphologiques ainsi que les racineurs basés essentiellement sur une

procédure de dé-suffixation qui consiste à supprimer les suffixes qui différencient les flexions

des unités lexicales (les formes conjuguées d’un verbe par exemple).

Page 21: Systemedinformationarabe

Système de recherche d’information arabe

20

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Dans ce chapitre, nous introduisons la langue arabe. La section (2) est consacrée à son

statut géographique, à ses diverses variantes et celle qui sera l’objet de l’étude. Dans la

section (3) nous présentons les caractéristiques linguistiques et la classification des unités

lexicales de l’arabe. Finalement, dans les sections (5), (6) nous aborderons les ressources

linguistiques de l’arabe ainsi que les outils pour son traitement.

2 - La langue Arabe et ses variantes

L’arabe est une langue parlée par plus de 200 millions de personnes. Elle est langue

officielle d’au moins 22 pays. C’est aussi la langue de référence pour plus d’un milliard de

musulmans. Comme son nom l’indique, la langue arabe est la langue parlée à l’origine par le

peuple arabe. C’est une langue sémitique (comme l’hébreu, l’araméen et le syriaque). Au sein

de cet ensemble, elle appartient au sous-groupe du sémitique méridional.

Le développement de la langue arabe a été associé à la naissance et la diffusion de

l’islam. L’arabe s’est imposée, depuis l’époque arabo-musulmane, comme langue religieuse

mais plus encore comme langue de l’administration, de la culture et de la pensée, des

dictionnaires, des traités des sciences et des techniques. Ce développement s’est accompagné

d’une rapide et profonde évolution (en particulier dans la syntaxe et l’enrichissement lexical).

L’arabe peut être considéré comme un terme générique rassemblant plusieurs variétés :

l’arabe classique : la langue du Coran, parlée au VIIe siècle.

l’arabe standard moderne (l’ASM) : une forme un peu différenciée de l’arabe

classique, et qui constitue la langue écrite de tous les pays arabophones. L’ASM reste

le langage de la presse, delà littérature et de la correspondance formelle, alors que

l’arabe classique appartient au domaine religieux et est pratiqué par les membres du

clergé.

les dialectes arabes : malgré l’existence d’une langue commune, chaque pays a

développé son propre dialecte. Issus de l’arabe classique, leurs systèmes

grammaticaux respectifs affichent de nettes divergences avec celui de l’ASM. On peut

regrouper ces dialectes en quatre grands groupes :

1. les dialectes arabes, parlés dans la Péninsule Arabique : dialectes du Golfe,

dialecte du najd, yéménite.

2. les dialectes maghrébins : algérien, marocain, tunisien, hassaniya de

Mauritanie.

Page 22: Systemedinformationarabe

Système de recherche d’information arabe

21

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

3. les dialectes proche-orientaux : égyptien, soudanais, syro-libano-palestinien,

irakien (nord et sud).

4. la langue maltaise est également considérée comme un dialecte arabe.

L’arabe est un ensemble complexe dans lequel s’étendent des variétés écrites et orales

répondant à un spectre très varié d’usages sociaux. Mais au-delà de cette variété, les sociétés

arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène, d’où

l’importance de l’ASM qui forme un terrain commun pour cette large population. L’ASM est

la langue des médias officiels, de la communication écrite et de tout type de communication

non spontanée. Elle se distingue des dialectes arabes par son système grammatical partagé

avec l’arabe classique. L’ASM, quoique qu’elle soit considérée comme le symbole le plus

puissant de l’unité arabe, possède des variations régionales. Nous reconnaissons un texte

marocain vis-à-vis d’un texte égyptien ou d’un texte provenant des pays du Golfe. Cette

variation est du eaux différences qui ont lieu dans la formation de nouveaux vocabulaires.

Mais elle est aussi la conséquence de l’histoire coloniale différente des régions impliquées.

Les pays du Maghreb, par exemple, ont une tendance naturelle à regarder des exemples

français, et le texte est largement influencé par la langue française même au niveau de la

syntaxe et de la stylistique. Nous trouvons, par exemple االول الوزير (de : le premier ministre

français) au lieu du terme fréquent الوزراء رئيس (le président des ministres). Dans les pays

arabes sans un passé colonial français, l’anglais remplace le français en tant que langue

fournissant les modèles syntaxiques et stylistiques.

3- Grammaire et caractéristique de l’arabe

La grammaire traditionnelle se divise en deux branches :

1. La morphologie, اَلَصرف qui comprend :

Morphologie dérivationnelle, qui étudie la construction des unités lexicales et

leur transformation selon le sens voulu. Ainsi, la dérivation morphologique est

décrite sur une base morphosémantique: d’une même racine, se dérivent

différentes unités lexicales selon des schèmes qui sont des adjonctions et des

manipulations de la racine. La racine [KTB] épouse plusieurs schèmes selon

qu’on veut exprimer un procès accompli (c1 a c2 a c3 a) [kataba] ou

inaccompli (y a c1 c2 u c3 u) [yaktubu], un nom d’agent (c1 a : c2 i c3 u n)

[ka:tibun], un nom de patient (ma c1 c2 u : c3 u n) [maktu:bun], etc.

Page 23: Systemedinformationarabe

Système de recherche d’information arabe

22

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Morphologie flexionnelle concerne le marquage casuel pour le nom et

l’adjectif ou la conjugaison du verbe, appelé «اََلعَراب».

2. La Syntaxe « النحو » qui étudie la formation correcte des phrases garantit la

grammaticalité de la phrase en analysant :

a. La position des unités lexicales les unes par rapport aux autres,

déterminant ainsi l’ordre des unités lexicales.

b. Le marquage casuel des unités lexicales de la phrase. Ainsi, la fonction

syntaxique de l’unité lexicale est déterminée en s’appuyant sur la

morphophonologie.

Pour la reconnaissance des unités lexicales dans les textes, nous sommes confrontés à

l’ambiguïté provoquée surtout par la voyellation partielle, l’agglutination et l’ordre

relativement libre des unités lexicales.

Par exemple l’unité lexicale ferme, est hors contexte, un substantif, un adjectif ou un

verbe. Alors que l’unité lexicale arabe RaLaKa « ََغلَق» est un verbe à la 3ème personne

masculin singulier de l’accompli actif, par contre sa forme non « غلق » dans l’exemple donné

ne sont représentées que les consonnes RLK) admet quatre catégories grammaticales :

Substantif masculin singulier (RaLKun : une fermeture).

Verbe à la 3è personne masculin singulier de l’accompli actif (RaLaKa : il a

fermé ou RaLLaKa il a fait fermer).

Verbe à la 3è personne masculin singulier de l’accompli passif (RuLiKa : il a

été fermé).

Verbe à l’impératif 2ème

personne masculin singulier (RaLLiK: fais

fermer).Une autre difficulté de l’arabe est l’agglutination par laquelle les

composantes de l’unité lexicale sont liées les unes aux autres. Nous décrivons

ci-dessous les propriétés linguistiques de la langue arabe, à savoir la

voyellation, la flexion et l’agglutination.

Une autre difficulté de l’arabe est l’agglutination par laquelle les composantes de

l’unité lexicale sont liées les unes aux autres. Nous décrivons ci-dessous les propriétés

linguistiques de la langue arabe, à savoir la voyellation, la flexion et l’agglutination.

Page 24: Systemedinformationarabe

Système de recherche d’information arabe

23

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

3.1 Voyellation

La langue arabe s’écrit et se lit de droite à gauche, son alphabet compte 28 consonnes

adoptant différentes graphies selon leur position (au début, au milieu ou à la fin d’une unité

lexicale).

Une unité lexicale arabe s’écrit avec des consonnes et des voyelles. Les voyelles sont

ajoutées au-dessus ou au-dessous des lettres. Elles sont nécessaires à la lecture et à la

compréhension correcte d’un texte et elles permettent de différencier des unités lexicales

ayant la même représentation.

Pour mieux comprendre prenons l’exemple «كتب » du tableau 4.2.1. Le dictionnaire

nous renvoie les voyellations lexicales suivantes :

Figure 2.1 : Ambiguïté causée par l’absence de voyelles pour les unités lexicales كتب et مدرسة

3.2 Flexion

Une langue flexionnelle est une langue dans laquelle les unités lexicales varient en

nombre et en flexion (soit le nombre des noms, soit le temps verbal) suivant les rapports

grammaticaux qu’ils entretiennent avec les autres unités lexicales. L’ensemble des formes

différentes d’une même unité lexicale fléchie constitue son paradigme. D’après cette

définition, l’arabe se classe comme une langue à morphologie extrêmement riche :

Le système flexionnel affiche un marquage varié. Par exemple, l’arabe contient trois

cas : le nominatif(NOM), qui est le cas par défaut, l’accusatif (ACC) pour les compléments

verbaux et le génitif (GEN) pour le dépendant d’une préposition. Les morphes sont divisés

dans la translittération par le symbole"+" :

Page 25: Systemedinformationarabe

Système de recherche d’information arabe

24

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 2.2 : Exemple des flexions dans la langue arabe

3.3 Agglutination

L’arabe montre une forte tendance à l’agglutination : l’ensemble des morphèmes

collés les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations

morphosyntaxiques. Ces unités lexicales sont souvent traduisibles par l’équivalent d’une

phrase en français. La structure d’une unité lexicale arabe est donc décomposable en cinq

éléments : proclitique, préfixe, base, suffixe et enclitique. La base est une combinaison de

lettres radicales (le plus souvent trois) et d’un schème. La base – avec préfixe et suffixe -

forme le noyau lexical, éventuellement entouré d’extensions [36]. Comme le montre

l’exemple suivant : «لِيَضِربُهَا ََ « َو

Figure 2.3 : Exemple représente l’agglutination dans la langue arabe

Page 26: Systemedinformationarabe

Système de recherche d’information arabe

25

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Cet exemple révèle la complexité morphologique de l’arabe. Il s’agit du verbe « يَضِرب»

employé au présent du subjonctif, 3ème personne du masculin pluriel, la base verbale est /

Le pronom sujet n’est pas réalisé. En position proclitique, on ./« ضرب » / et la racine / َضَربَ

utilise la conjonction de coordination "wa" « و » la conjonction "li" « ل ». En position

enclitique, on utilise le pronom complément d’objet 3ème personne du féminin singulier

"haA" «هَا » "elle".

3.4 Pro-drop (= à sujet pronominal vide)

L’ASM néglige systématiquement la réalisation morphologique du pronom sujet.

Cependant, le verbe s’accorde en personne, en genre et en nombre avec le pronom omis,

comme l’affiche l’exemple suivant: / هُمُ / لُ اكَ vs / هُن / اكلَن / Le pronom correspondant est mis

entre / / :

Akalu /homo/ vs Akalnna /honna/

(V)PASSE.3.MASC.PL vs (V)PASSE.3.FEM.PL

ont mangé /ils/ vs ont mangé /elles/

"Ils ont mangé" vs "Elles ont mangé"

4 - Les parties de discours en arabe

Les unités lexicales qui composent le discours sont regroupées par catégories selon les

caractéristiques qu’ils ont en commun. Ces différentes catégories s’appellent les parties du

discours. Cette section donne une classification des unités lexicales de la langue arabe. Dans

un premier temps, nous présentons la classification traditionnelle des unités lexicales (sous-

section 4.1), ensuite des tentatives de classification plus récentes (sous-section 4.2).

4.1 Les parties de discours classiques

La grammaire traditionnelle compte trois classes: le nom, le verbe et la lettre. La

catégorie nominale rassemble toutes les unités lexicales n’ayant pas de sens lié au temps et

regroupe les catégories du substantif et de l’adjectif. La catégorie verbale comprend toutes les

unités lexicales référant à un état ou à une action au passé, au présent ou au futur. La classe

lettre, quant à elle, se répartit d’une part, en lettres de l’alphabet, littéralement les lettres de

construction , المعاني حروف , qui s’unissent pour former des unités lexicales, et d’autre part, en

lettres de signification, المباني حروف , dont le sens n’est complet que si elles sont utilisées avec

un nom ou un verbe. La grammaire traditionnelle recense presque quatre-vingts particules,

dont l’identification de la classe syntaxique exige d’étudier séparément les propriétés

distributionnelles de chaque lettre.

Page 27: Systemedinformationarabe

Système de recherche d’information arabe

26

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Sur critères morphologiques, la classe du nom se répartit en deux groupes :

Noms variables comprenant les deux propriétés suivantes :

o Ils acceptent les changements morphologiques et comprennent des

variantes numérales (singulier, duel et pluriel). Cette sous-catégorie

contient les déverbaux (PY tel le nom d’agent, le nom de patient, le

nom de résultat, et le nom d’instrument).

o Ils ont des formes dérivées adjectivales et diminutives. Ils se

répartissent en noms dérivés du paradigme verbal et noms non dérivés.

Ces derniers se subdivisent aussi, sur une base de distinction

conceptuelle, en noms abstraits, relatifs à l’espace mental, et noms

concrets, relatifs à l’espace physique.

Noms invariables regroupant des lexèmes tels que le pronom, le démonstratif,

l’interrogatif, le relatif et certains numéros. Ces noms sont dits invariables car

la marque casuelle n’est pas identifiée phonologiquement. Cependant, ces

lexèmes exercent les fonctions d’un nom.

4.2 Classification récentes des unités lexicales de l’arabe

A notre connaissance, les études qui ont cherché à classifier des unités lexicales en

arabe selon les parties de discours sont très peu nombreuses [21]. Les démarches récentes de

classification des unités lexicales se répartissent en deux approches. Certaines consistent en

une classification identifiée pour les langues indo-européennes sans prendre en considération

l’existence possible d’une classe n’existant pas dans ces langues, ou bien l’inverse. D’autres

ont conservé la classification traditionnelle arabe tout en lui suggérant des raffinements. Nous

présentons une classification assez récente réalisée dans le cadre du développement d’un

étiqueteur morphosyntaxique [2] qui a servi de référence pour d’autres recherches comme [1].

[2] présente un étiquetage basé sur la classification traditionnelle et raffinée par les

subdivisions proposées par [3].Selon cette classification, les unités lexicales se répartissent en

cinq classes : nom, verbe, particule, résiduel et ponctuation. Certaines sont raffinées en sous

classes illustrées sur la figure suivante :

Nous avons présenté une description succincte de la grammaire arabe et avons décrit

ses propriétés linguistiques :

Une langue voyellée qui avec l’absence de voyellation entraîne une ambiguïté à

différencier des unités lexicales ayant la même représentation.

Page 28: Systemedinformationarabe

Système de recherche d’information arabe

27

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 2.4 : Classification des unités lexicales proposée par [2]

Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en

flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports

grammaticaux qu’ils entretiennent avec les autres unités lexicales.

une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et

constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques.

Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en

français.

Une langue pro-drop où elle néglige systématiquement la réalisation morphologique

du pronom sujet.

Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et

particule-, puis nous avons décrit une classification structurale récente des unités lexicales en

arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et

ponctuation.

5- Ressources linguistiques : état des lieux

Les ressources linguistiques (RL) jouent un rôle essentiel dans les applications de la

technologie des langues. Ainsi, d’une part les RL alimentent les différents processus des

systèmes de TAL, d’autre part, elles sont de plus en plus exploitées pour accompagner le

travail de modélisation linguistique par des méthodes statistiques [4].

Page 29: Systemedinformationarabe

Système de recherche d’information arabe

28

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Les RL à grande échelle connaissent une diffusion croissante, notamment grâce à des

structures le LDC 5 (Linguistic Data Consortium) aux Etats-Unis et l’ELRA 6 (European

Language Ressources Association) en Europe. Nous donnons un aperçu des ressources

linguistiques existantes pour l’arabe. Nous nous limitons à celles utiles pour l’analyse

automatique des corpus textuels.

5.1 Lexiques

Un lexique se constitue d’une liste d’entrées lexicales auxquelles peuvent être

associées des informations linguistiques relevant la morphologie, la syntaxe, ou la sémantique

ainsi que sa fréquence d’usage, des exemples d’emploi, etc.

Toutes ces informations peuvent être regroupées en deux groupes distincts, les

informations intra-lexicales et inter-lexicales. Les informations intra-lexicales (constituant la

microstructure du lexique) tandis que, les informations inter-lexicales (constituant la

macrostructure du lexique) sont celles qui lient les unités lexicales entre eux dans le lexique.

Nous distinguons différents types de liens :

les liens morphologiques permettent de lier l’unité lexicale à sa forme de base. Ils

regroupent les informations flexionnelles et dérivationnelles (lien entre une forme

fléchie et son lemme).

les liens sémantiques lient l’entrée lexicale avec ses informations sémantiques.

Nous présentons quelques-uns des lexiques électroniques de l’arabe, en abordant d’une

part les lexiques monolingues et d’autre part les lexiques multilingues.

5.2 Corpus

Le corpus se définit de fait comme l’objet concret auquel s’applique le traitement,

qu’il s’agisse d’une étude qualitative ou quantitative. Le corpus est défini par [5] comme «

l’ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène

linguistique ». Mais les données ont un nom trompeur : elles ne s’imposent pas, elles sont

construites. Certes, il y a un existant, directement sous forme de textes électroniques par

exemple, et donc l’analyste n’a pas une totale liberté d’inventer ses données, il part d’une

réalité, mais il reste des décisions du type : faut-il considérer tout ce qui est disponible ou en

extraire un sous-ensemble plus significatif et équilibré ; comment éventuellement l’adapter au

traitement envisagé. Ainsi, selon [6] le corpus doit vérifier trois types de conditions : des

conditions de signifiance, des conditions d’acceptabilité, et des conditions d’exploitabilité.

Page 30: Systemedinformationarabe

Système de recherche d’information arabe

29

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Conditions de signifiance : un corpus est constitué en vue d’une étude déterminée,

portant sur un objet particulier, une réalité telle qu’elle est perçue sous un certain

angle de vue. Les documents retenus doivent être adéquats comme source

d’information pour correspondre à l’objectif qui suscite l’analyse.

Conditions d’acceptabilité : le corpus doit apporter une représentation fidèle, sans

être parasité par des contraintes externes. Il doit avoir une ampleur et un niveau de

détail adaptés au degré de finesse et à la richesse attendue en résultat de l’analyse.

Conditions d’exploitabilité : les textes qui forment le corpus doivent être

commensurables. Le corpus doit apporter suffisamment d’éléments pour pouvoir

repérer des comportements significatifs (au sens statistique du terme).

Dans notre cas, nous distinguons deux grandes catégories de corpus : les corpus de

spécialités tentent de refléter l’usage de la langue dans un domaine particulier (corpus

techniques, médicaux), tandis que les corpus généralistes s’intéressent à l’ensemble d’une

langue et rassemblent souvent des textes plus diversifiés, représentatifs de sa diversité.

5.2.a – Corpus général

Le corpus de langue générale est consacré à une langue naturelle. Il tend à représenter

la diversité des usages de la langue choisie. A ce titre, il est constitué d’un ensemble de

données dont les conditions de production et de réception sont représentatives d’une grande

variété de situations de communication (orale : monologue, interview, écrite : lettre, roman...),

et de types textuels (exposé scientifique, fiction narrative, reportage...). Il permet la

constitution de sous corpus en registre 7 pour des analyses contrastives par exemple. En outre,

le corpus de langue générale est souvent ouvert, c’est-à-dire que son contenu est sans cesse

augmenté de nouvelles données, ce qui autorise à terme des analyses diachroniques

(néologismes, emplois morphologiques privilégiés). Enfin, le corpus de langue générale est de

grande taille, il dépasse aujourd’hui plusieurs millions d’occurrences. Al-Hayat Le corpus Al-

Hayat est distribué par l’organisme ELRA, il a été développé dans le cadre d’un projet de

recherche de l’Université d’Essex, en collaboration avec Open University. Ce corpus est

constitué d’articles extraits du journal Al-Hayat, qui ont été utilisés dans les campagnes

TREC. Les données sont réparties dans sept rubriques, suivant les critères de répartition des

sujets du journal Al-Hayat : rubrique Générale, rubrique Automobile, rubrique Informatique,

rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.

Page 31: Systemedinformationarabe

Système de recherche d’information arabe

30

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Le balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés.

La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591

articles. An-Nahar Le corpus de textes du quotidien libanais An-Nahar distribué par ELRA,

est constitué d’articles en arabe standard de 1995 à2000, stockés sous la forme de fichiers

HTML sur CD-ROM. Chaque année contient 45 000 articles et24 millions de mots. Chaque

article contient des informations telles que le titre, le nom du quotidien, la date, le pays, le

type, la page, etc. NEMLAR : Network for Euro-Mediterranean Language Resources Ce

corpus a été produit dans le cadre du projet NEMLAR 8. Le corpus écrit NEMLAR est

constitué de 500 000 unités lexicales regroupés en 13 catégories différentes, visant à obtenir

un corpus bien équilibré qui offre une représentation de la variété de traits syntaxiques,

sémantiques et pragmatiques de la langue arabe moderne. Les différentes catégories sont

illustrées dans la table 2.5.

Le corpus est fourni sous la forme de 4 versions différentes:

Texte brut

Texte entièrement voyellée

Texte comprenant une analyse lexicale de l’arabe

Texte enrichi linguistiquement avec les parties du discours Agence France Presse

L’Agence France Presse (http://www.afp.com/arabic/home/) est l’un des plus gros

diffuseurs européen de dépêches en langues Arabe.

Le corpus est constitué de 383 872 documents. Il a été encodé en utilisant le SGML et a

été transcodé à Unicode (UTF-8). Le corpus inclut des articles journalistiques du 13 mai 1994

au 20 décembre 2000 avec approximativement 76 millions d’unité lexicale. Les données sont

réparties dans six rubriques, suivant les critères de répartition des sujets du journal Agence

France Presse : rubrique Générale, rubrique Informatique, rubrique Actualités, rubrique

Economie, rubrique Sciences, et rubrique Sport. Chaque article contient des informations

telles que le titre, la date, le pays, la page, etc. Corpus arborés Un corpus arboré est un corpus

annoté par des informations de nature interprétative [22]. Les différents type d’annotation

dont parle J. Véronis sont : l’annotation grammaticale, sémantique, multilingue ainsi que

l’annotation phonétique. Il existe deux types d’annotation grammaticale. Le premier consiste

à effectuer un étiquetage des catégories grammaticales et des informations

morphosyntaxiques associées. Le deuxième est un marquage de structures syntaxiques,

Page 32: Systemedinformationarabe

Système de recherche d’information arabe

31

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 2.5 Composition du corpus NEMLAR

6 – Conclusion

Le but de ce chapitre était de présenter la langue arabe, de décrire plus particulièrement

ses propriétés linguistiques :

Une langue voyellée qui avec l’absence de voyellation entraîne une ambigüité à

différencier des unités lexicales ayant la même représentation.

Une langue flexionnelle dans laquelle les unités lexicales varient en nombre et en

flexion (soit le nombre des noms, soit le temps verbal), suivant les rapports

grammaticaux qu’ils entretiennent avec les autres unités lexicales.

une langue agglutinante où l’ensemble des morphèmes collées les unes aux autres et

constituant une unité lexicale véhiculent plusieurs informations morphosyntaxiques.

Ces unités lexicales sont souvent traduisibles par l’équivalent d’une phrase en

français.

Une langue pro-drop où elle néglige systématiquement la réalisation morphologique

du pronom sujet.

Page 33: Systemedinformationarabe

Système de recherche d’information arabe

32

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Nous avons ensuite présenté la classification traditionnelle tripartite -verbe, nom et

particule-, puis nous avons décrit une classification structurale récente des unités lexicales en

arabe, ainsi elles se répartissent en cinq classes : nom, verbe, particule, résiduel et

ponctuation. Et finalement nous avons donné un aperçu sur les différentes ressources

linguistiques disponibles en arabe, à savoir les lexiques monolingues et multilingues, et les

corpus bruts et annotés.

Dans le chapitre suivant on va attaquer la phase de prétraitement des documents arabe

qui représente une phase très importante pour la recherche d’informations avec influence

directe sur la performance et la qualité des résultats.

Page 34: Systemedinformationarabe

Système de recherche d’information arabe

33

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 3 : Prétraitement des

documents arabe

Page 35: Systemedinformationarabe

Système de recherche d’information arabe

34

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

1 – Introduction

Après avoir donné un aperçu général sur les systèmes de recherche d’information, et

donner des spécificités de la langue arabe et ça complexité morphologique. On va présenter

dans ce chapitre d’abord les différentes méthodes de la représentation des documents pour un

traitement automatique .puis on va définir la notion de lemmatisation avec les différentes

approche qui existes

2 – Représentation des documents

La phase de représentation est très importante et comporte deux choix qui affectent

souvent les performances : le choix de termes (mot, lemme, stem ou n-grammes) et le choix

des poids associés à ces termes (absence/présence, nombre d’occurrences, fréquence, ... etc.).

2.1.a – Modèle Vectorielle

À chaque fois qu’il est question de définir un problème de façon à assurer un

traitement automatique, il est impossible de passer outre l’étape où il faut choisir la façon dont

on va représenter le problème. Dans le cas de la classification automatique de textes, on doit

opter pour une façon efficace de représenter les instances à traiter, soit les textes. Un grand

nombre de chercheurs dans le domaine ont choisi d’utiliser une représentation vectorielle [10]

dans laquelle chaque texte est représenté par un vecteur de n termes pondérés. À la base, les n

termes sont tout simplement les n différents mots apparaissant dans les textes de l’ensemble

d’entraînement. Cette approche est aussi appelée «bag-of-words». On peut utiliser d’autres

types d’attributs pour caractériser les vecteurs dont certains seront présentés plus loin. Il

existe aussi plusieurs façons d’associer un poids à un terme. Il peut être tout simplement

binaire (1 si le mot est présent dans le texte, 0 sinon). Il peut aussi représenter le nombre

d’occurrences du mot dans le texte. Cependant, en procédant ainsi, on donne une importance

trop grande aux termes qui apparaissent très souvent à travers toutes les classes et qui sont peu

représentatifs d’une classe en particulier. Une façon largement utilisée de calculer le poids

d’un terme est la fonction TFIDF (acronyme pour «term frequency inverse document

frequency»). Issue du monde de la recherche d’information [23], celle-ci donne plus

d’importance aux mots qui apparaissent souvent à l’intérieur d’un même texte, ce qui

correspond bien à l’idée intuitive que ces mots sont plus représentatifs du document. Mais sa

particularité est qu’elle donne également moins de poids aux mots qui appartiennent à

plusieurs documents, pour refléter le fait que ces mots ont un faible pouvoir de discrimination

entre les classes.

Page 36: Systemedinformationarabe

Système de recherche d’information arabe

35

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Le poids d’un terme tk dans un document dj est calculé avec la formule suivante :

Pour avoir des poids entre 0 et 1, on peut appliquer une normalisation, ce qui est

souvent le cas. La fonction TFIDF a démontré une bonne efficacité dans des tâches de

catégorisation de textes, et, en plus, son calcul est simple. Il faut savoir que d’autres méthodes

plus sophistiquées peuvent aussi être utilisées [25]. Malgré la grande popularité de l’approche

«bag-of-words» pour représenter les textes, plusieurs chercheurs ont expérimenté l’utilisation

des modes de représentation alternatifs. Une des motivations est que cette approche met de

côté une quantité considérable d’information contenue dans le document original. Les

paragraphes, les phrases et l’ordre des mots sont complètement écartés. Toute l’information

sur les structures syntaxiques est perdue. La question est bien sûr de savoir si la qualité de la

classification automatique des textes va être affectée négativement par cette façon d’agir. Est-

ce que tout ce qui est mis à l’écart au profit d’une représentation «bag-of-words» est

véritablement pertinent lors de l’assignation d’un texte à une catégorie ? La question à savoir

si les mots pris séparément représentent toujours des unités sémantiques atomiques n’est plus

à débattre. Il est clair que ce n’est pas le cas. Personne ne peut contredire le fait que les mots

«apprentissage» et «automatique» ensemble ont une sémantique différente que lorsque pris

séparément. On peut donc oser croire que des modes de représentation conservant

l’information sur les liens entre les mots pourraient améliorer la classification de textes,

sachant que cette tâche est directement liée au sens du message véhiculé par le texte, c’est-à-

dire à sa sémantique. En particulier, [12] ont essayé une dizaine de façons de représenter les

textes sur un classificateur ayant comme base l’apprentissage de règles (RIPPER). Ils ont

d’abord considéré les groupes nominaux, en extrayant des suites de noms et d’adjectifs pour

construire les termes de l’espace vectoriel. L’utilisation d’une application analysant la nature

grammaticale des mots du texte a été nécessaire à la mise en place de ce mode de

représentation. Puis, en utilisant une approche plutôt statistique que syntaxique, ils ont

également considéré les groupes-clés, c’est-à-dire les groupes de mots ayant le plus de sens

dans un document. En parallèle, ils ont aussi évalué l’impact de regrouper les mots

- #( tk, dj) est le nombre d’occurrences de tk dans dj

- |Tr| est le nombre de documents d’entraînements

- #( tk) est le nombre de documents d’entraînements dans

lesquels tk apparaît au moins une fois

Page 37: Systemedinformationarabe

Système de recherche d’information arabe

36

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

synonymes en un même méta-attribut. Dans le même ordre d’idées, la notion d’hyperonymes

a été mise à l’épreuve pour regrouper des mots de la même façon. Malheureusement, aucun de

ces modes alternatifs n’a produit de résultats équivalents ou supérieurs à l’approche «bag-of-

words».

2.1.b – Représentation par concept

Une autre méthode de représentation [2], bien qu’il se base aussi sur le formalisme

vectoriel pour représenter les documents, reste fondamentalement différente. Les dimensions

de l’espace vectoriel ne sont pas associées ici à des termes d’indexation mais à des concepts.

Pour permettre une telle représentation des documents, il est nécessaire de pouvoir projeter

n’importe quelle lexie du dictionnaire sur l’espace généré par l’ensemble des concepts

prédéfinis. Comme espace de concepts on cite le thésaurus Larousse composé de 873

concepts hiérarchisés en 4 niveaux. Par exemple, le mot “mélodie”, défini par les concepts

741, 781 et 784 (phrase, musique et chant) du thésaurus, sera représenté par un vecteur de

dimension 873 dont toutes les composantes seront nulles sauf celles associées aux concepts

741, 781 et 784 qui seront identiques. Le thésaurus Larousse sera donc défini comme un

ensemble de couple appartenant à avec L correspondant à l’ensemble des lemmes

du thésaurus.

Page 38: Systemedinformationarabe

Système de recherche d’information arabe

37

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

2.1.c – Représentation Mixte

L’avantage de la représentation conceptuelle est en particulier, de réduire les effets

synonymiques du vocabulaire. Par exemple, “pic”, “cime”, “sommet”, “crête” possèdent des

sens en commun. Lors d’une représentation statistique (représentation vectorielle), chaque

mot sera associé à une dimension. Il n’y aura donc aucune ressemblance entre des textes

utilisant ces différents mots. L’avantage de la représentation conceptuelle est que des mots

synonymes partagent au moins un concept. Cependant, l’inconvénient majeur de la

représentation conceptuelle est que les noms propres du document ne sont pas pris en compte.

En effet les noms propres, étant sémantiquement vides par définition, ne possèdent pas de

représentation au sein du thésaurus. Par exemple les mots “Ferrari” et “Montpellier” sont

définis comme des vecteurs “nuls” alors qu’ils peuvent être utile lors d’un processus de

catégorisation, notamment pour des catégories de type : “Automobile” ou “Langedoc-

Roussillon”. L’idée de la représentation mixte [2] est donc d’allier, à une représentation

conceptuelle pure, une dimension statistique supplémentaire. Cette double représentation des

textes a pour avantage de fournir deux informations différentes et complémentaires à un

processus de catégorisation. En effet, la représentation statistique permet de mettre en

évidence le vocabulaire discriminant tandis que la représentation conceptuelle permet quant à

elle, d’obtenir une vision plus globale du texte en projetant ce dernier sur un ensemble de

concepts. Cette projection permet d’en déduire le “champs sémantique” du texte en question.

Chaque document dans le processus de catégorisation mixte sera représenté par un vecteur

défini comme la concaténation des deux vecteurs suivants :

- La première moitié du vecteur mixte correspondra au vecteur statistique.

- La seconde moitié du vecteur mixte correspondra au vecteur conceptuel. Comme les

deux vecteurs ne sont pas obligatoirement uniformes, le vecteur mixte final est

normalisé :

Page 39: Systemedinformationarabe

Système de recherche d’information arabe

38

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

3 – Prétraitent et Lemmatisation

3.1 – Prétraitement nécessaires

3.1.a - Encodage :

L'arabe est encodé sur le Web suivant plusieurs formats d'encodage comme Unicode,

ISO-8859-6 et CP1256. Les textes recherchés et les requêtes peuvent être encodés

différemment, ce qui les rend incomparables.

Par exemple, notre corpus de test provient de la collection « ». Les documents sont

représentés en Unicode (UTF-8) et les requêtes, en ISO-8859-6. Un autre encodage (Windows

CP1256) est utilisé sur le Web pour représenter les textes arabes. Afin d'apparier les

documents avec les requêtes, nous devons réutiliser des outils de conversion entre différents

encodages en utilisant des tables de l'alphabet arabe. Ainsi, tout a été transformé en format

Unicode dans notre cas.

3.1.b - Tokenisation :

La tokenisation consiste à identifier les mots dans une séquence de lettres. Pour la

tokenisation des textes arabes, en plus des mêmes ponctuations présentes dans les textes

européennes, nous avons ajouté d'autres signes de ponctuation arabe (encodés en arabe)

comme la virgule, le point-virgule et le point d'interrogation et nous les avons considérés

comme des séparateurs. Ainsi, tous ces signes agissent comme séparateurs de mots arabes.

3.1.c - Normalisation orthographique :

Dans l'arabe écrit, les voyelles sont souvent omises dans les textes et un lecteur

familier avec ce langage ne trouvera pas vraiment de difficulté pour lire correctement un texte

sans voyelles. Néanmoins, on peut parfois trouver quelques voyelles présentes avec les mots

dans les textes. Ainsi, l'élimination de ces voyelles est nécessaire pour fin de normalisation.

D'autre part, certaines lettres subissent une légère modification dans l'écriture qui n'influe pas

considérablement sur le sens du mot. Mais l'encodage de ces lettres change d'un mot à un

autre. On peut citer à titre d'exemple la lettre « أ ». Au début des mots, elle peut être

représentée par « أ » comme (أكل), par « إ » comme (إستخدم) ou encore « آ » comme dans (آالت).

Une autre raison pour ce prétraitement est qu'on a tendance fréquemment à mal écrire ces

différentes formes de hamza. Ce genre d'erreurs est très répandu dans les textes arabes. Afin

Page 40: Systemedinformationarabe

Système de recherche d’information arabe

39

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

de tenir compte de toutes ces spécificités de ce langage et de remédier au problème de

variation de représentation des caractères arabes dans les textes comme dans les requêtes, il

est nécessaire d'adopter et d'appliquer quelques méthodes de normalisation sur le corpus avant

la lemmatisation :

Remplacer les hamzas (أ, إ, آ) par (ا).

Remplacer (ى) par (ي) à la fin des mots.

Remplacer (ة) par (ه) encore à la fin des mots.

Remplacer la séquence (ئ) par ( ي).

Eliminer le caractère « tatweel » et « kashida » ( _ ) utilisé pour l'esthétique dans les

textes arabes.

Eliminer les diacritiques (voyelles) et la « chedda ».

Cette étape de normalisation améliore clairement la performance de la recherche quand

lors de sa mise en place dans un système de RI.

3.1.d - Construction de Stoplist (Liste des mots outils) :

Comme pour d'autres langues, l'arabe contient aussi des mots fonctionnels (ou mots

outils) qui ne partagent pas un sens particulier utile pour la recherche d'information. Nous

éliminons ainsi ces mots outils avant la phase de lemmatisation. Cette table de mots outils

renferme presque toutes les prépositions et les particules de l'arabe et les traductions de

quelques mots outils (stopwords) anglais qu'on peut trouver dans les requêtes.

Plusieurs tables de mots outils ont été conçues pour l'arabe. La plus répandue, et

largement reprise par d'autres travaux dans ce domaine, est celle de Khoja renfermant 168

entités [24].

3.2 – Lemmatisation (Stemming)

Un des traitements les plus importants pour la langue arabe, en vue de la recherche

d'information et de la catégorisation des documents est la lemmatisation des mots. L'objectif

de la lemmatisation est de trouver la forme représentative d'index d'un mot à partir de sa

forme représentée dans le document et réduire son espace caractéristique par l'application de

la troncature des affixes.

Page 41: Systemedinformationarabe

Système de recherche d’information arabe

40

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Comme nous l'avons introduit précédemment, un mot arabe est formé généralement par une

séquence de {antéfixe, préfixe, noyau, suffixe, postfixe}. Ainsi un mot arabe peut avoir une

forme plus compliquée si tous ces affixes sont attachés à sa forme standard. De telles

situations se présentent fréquemment dans la morphologie arabe.

La lemmatisation des mots arabes a été une problématique majeure dans plusieurs

travaux dans la recherche d'information arabe. Alors, notre étude permet d’identifier

l’ensemble des méthodes qui s’adresse au problème d’extraction d’information à partir d’un

document texte arabe.

Nous avons constaté que ces méthodes peuvent être divisées en quatre classes, « Root

Extractor », « Light Stemming », « Statistical Approach » et finalement « Hybrid Approach ».

La première catégorie se base essentiellement sur une connaissance approfondie de la langue

arabe, sa morphologie et ses variations. Alors que la seconde classe consiste à éliminer

l’ensemble des fréquents suffixe et préfixes.

La troisième catégorie regroupe l’ensemble des techniques d’extraction non linguistiques qui

ne dépendent guère des caractéristiques de langue arabe et se base sur une étude statistique

d’extraction d’information indépendamment de la complexité de la langue.

Notre dernière classe est la résultante d’un mélange regroupant l’ensemble des approches des

différentes classes déjà citées.

3.2.a – 1ére approche « Stem-based »

Plusieurs algorithmes de lemmatisation des règles prédéfinies pour éliminer

l’ensemble des affixes (suffixes, infixes, préfixes…) du mot en s’arrêtant au niveau du

lemme.

Cette catégorie permet de récupérer des informations remarquablement bonnes sans

passer par une analyse morphologique correcte.

Plusieurs algorithmes ont été développés en se basant sur cette approche en conservant la

sémantique du mot car il ne cherche pas à extraire la racine, mais il essaie d’éliminer les

suffixes et les préfixes les plus fréquemment utilisés dans la langue arabe. Jusqu’à maintenant,

il n’y a pratiquement pas d’algorithme standard pour la lemmatisation des textes arabes à base

des lemmes.

Page 42: Systemedinformationarabe

Système de recherche d’information arabe

41

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Les travaux déjà réalisés Al Ameed et al. (2005), Larkey et al. (2002), Chen & Gey

(2002), Kadri & Nie (2006), utilisent un ensemble de règles afin d’enlever des affixes sachant

que jusqu’à maintenant aucune listes prédéfinies des préfixes et suffixes n’est disponible.

Une phase de normalisation est appliquée avant l’application de ces algorithmes. Par

exemple, on doit remplacer (أ), (إ) et (آ) par « Alif » (ا), même chose pour (ى), on la

remplace par (ي) à la fin du mot.

Light stemming ou lemmatisation assouplie comme les francophones l’appellent est

une approche proposée et développée par Larkey et al. (2002), inspiré par le processus de

lemmatisation de langue anglaise, cet algorithme se base sur l’élimination d’un ensemble de

suffixes et de préfixes. Il commence par la suppression de la lettre (و) si elle est la première

lettre du mot, puis il procède à une élimination des préfixes (فال ,كال ,وال ,ال لل , , بال ) et des

suffixes (ها, ين, ون ان ,ات , ي , ة , ه , يية , يه ).

3.2.b – 2éme approche « root-extractor »

Bien évidemment plusieurs algorithmes de lemmatisation qui se basent sur les patrons

et les affixes ont été développés afin d’extraire les racines de longueur trois, quatre et cinq à

partir des formes verbales, des noms et des adjectifs dérivant des verbes. La plupart de ces

travaux [1] [2] [3] [4] [5] [6] dont le but est d’extraire la racine afin de diminuer l’espace

caractéristique des termes, se base essentiellement sur le processus de correspondance entre

les termes et les patrons.

S.Khoja et R.Garside (1999) [1] ont proposé une méthode impliquant l’élimination

des voyelles, de la ponctuation, les nombres, les articles définis (ال), conjonction de

coordination (و) et les « stopwords » ainsi que les plus fréquents suffixes et préfixes.

Pour ce faire, il procède à une analyse morphologique qui compare le terme à une liste

de patrons et de racines pour déterminer si la forme sans affixes peut être obtenue en

appliquant un certain patron sur une racine connue. S’il ya une correspondance, les caractères

représentants la racine dans le patron sont extraits. La Figure suivante illustre le mécanisme

d’extraction de la racine en se basant sur la correspondance d’un patron avec le mot, par

exemple le mot (أحالم) correspond au patron (أفعال) et nous donne la racine )حلم(.

Page 43: Systemedinformationarabe

Système de recherche d’information arabe

42

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 3.1 : Approche « root-based » pour la lemmatisation

3.2.c – Approche statistique

Toutes les approches statistiques se basent essentiellement sur les techniques N-gram,

cette technique nous permet d’avoir la capacité de décider à partir des structures de caractères

que deux mots sont sémantiquement similaires ou non. Similaire signifie que les deux mots

possèdent plusieurs sous-chaînes de N caractères communes entre eux.

Cette approche possède plusieurs avantages, elle est applicable à toutes les langues car

elle ne nécessite pas une connaissance préalable de la langue à traiter, elle n’exige pas

l’application d’un ensemble de règles prédéfinis et la construction d’une base de vocabulaires.

L’application de cette technique a donné des bons résultats en plusieurs langues,

même sur la langue arabe en utilisant les 3-gram et les 4-gram et surtout sur les cas appelés

« noisy-texts » qui sont des textes contenant des erreurs typographiques.

Cette méthode statistique peut être divisée en deux sous catégories :

- N-gram basé sur le coefficient de similarité de Dice’s : développée par W.Adamson

George et J.Boreham (1974), elle était la première technique de classification qui se

base sur la structure des caractères des mots. Le coefficient de Dice’s est calculé par le

nombre de correspondance des bi-grams (2-gram) des paires de chaines de caractères.

- N-gram basé sur la technique des fréquences statistiques : proposé par L.Khriesat

(2006), cette technique utilise une mesure de non similarité appelée « Manhattan

distance ». Après une étape de normalisation, du prétraitement qui élimine la

ponctuation, les diacritiques, les nombres et les « stopwords », il calcule les N-gram

(N=3) de chaque mot et la sauvegarde dans un fichier. Pour chaque mot en compare la

fréquence du profile avec l’ensemble des fréquences de profile des autres mots.

Page 44: Systemedinformationarabe

Système de recherche d’information arabe

43

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Malgré que les systèmes de n-grammes aient été utilisés pour de nombreuses langues

différentes, on ne s'attendrait pas à de bons résultats lors de lemmatisation dans des langues

comme l'arabe. Toutefois, il y a des systèmes développés qui combine le mot et ses 6-

grammes et qui a donné des résultats remarquables pour plusieurs langues y compris l’arabe.

3.2.d – 4éme approche « hybrid approche »

Comme vous avez remarqué, chaque approche a ses propres avantages et

inconvénients, il y a celle qui nécessite la présence d’un ensemble des pré-requis et d’une

analyse morphologique et qui dépend totalement à la langue traitée, une autre qui se base sur

des règles linguistiques et il y a des techniques de lemmatisation qui ne dépend pas de la

langue traité et qui se base sur des formules statistiques et produisant des index de tailles

énormes. Donc, chaque technique doit être adaptée individuellement pour être approprié à

l’usage et résoudre ses propres problèmes.

Pour remédier à ces problèmes et augmenter la performance de l’étape de

lemmatisation, plusieurs chercheurs ont essayé de regrouper les différentes techniques de

chaque approche, les fusionner et les adapter pour avoir les meilleurs résultats possibles.

Plusieurs travaux ont été réalisés concernant ce sujet et ils ont donné des bons résultats

par rapport aux autres lemmatiseurs, car dans l’approche « Hybride », on essaie résoudre les

problèmes et les lacunes de chaque lemmatiseur en introduisant un autre.

4 – Conclusion

La lemmatisation a montré un grand effet sur la recherche d’information en arabe.

Mais il y a d’autres facteurs qui peuvent influencer positivement les résultats de la recherche.

Dans le chapitre suivant, on va aborder le concept de clustering qui représente une des

méthodes pour améliorer la recherche d’informations.

Page 45: Systemedinformationarabe

Système de recherche d’information arabe

44

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 4 : Regroupement des

documents (Clustering)

Page 46: Systemedinformationarabe

Système de recherche d’information arabe

45

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

1 - Introduction

La classification (clustering) est une méthode mathématique d’analyse de données :

pour faciliter l’étude d’une population d’effectif important (animaux, plantes, malades, gènes,

etc...), on les regroupe en plusieurs classes de telle sorte que les individus d’une même classe

soient le plus semblables possible et que les classes soient le plus distinctes possibles. Pour

cela il y a diverses façons de procéder (qui peuvent conduire à des résultats différents...).

Pour réaliser cette opération de regroupement, on fait fréquemment appel à la notion

de similarité entre les objets dans les données. En effet, cette notion de similarité prend tout

son sens en clustering car il s’agit d’évaluer à quel point deux éléments sont similaires (ou

dissimilaires) pour les regrouper ou les séparer. Le choix de la mesure de similarité permettant

de comparer les objets entre eux va induire la façon de les regrouper. En utilisant deux

définitions de similarité déférentes, les objets ne seront pas comparés, et de fait regroupés ou

non, de la même façon.

Cette notion de similarité est une première étape pour définir un algorithme permettant

de regrouper les objets, mais n’est pas suffisante. En effet, il est nécessaire de décrire la

stratégie utilisant cette similarité et permettant la construction explicite des clusters. Plusieurs

stratégies peuvent être mises en place en utilisant une même mesure de similarité. Ces

premiers constats sont déjà une explication du nombre important de méthodes de clustering

existantes.

Figure 4.1 : Exemple d’un jeu de données décrites par deux attributs et contenant trois clusters

identifiables visuellement.

Page 47: Systemedinformationarabe

Système de recherche d’information arabe

46

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

2 - Différentes approches en clustering

Loin de vouloir faire un état de l’art exhaustif de toutes les méthodes existantes, nous

présentons dans cette section les concepts clefs du clustering. Il est ainsi possible de regrouper

les approches selon des caractéristiques communes.

La première distinction à faire concerne le type de résultat obtenu. Suivant les

méthodes, les clusters obtenus peuvent être des ensembles durs ou flous. Certains objets

peuvent ne pas être classés, et certains clusters peuvent se recouvrir. De plus, le résultat n’est

pas forcément plat, et peut se présenter sous la forme d’une hiérarchie.

Les algorithmes de clustering diffèrent également par la stratégie mise en place pour

construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est

utilisée par une part importante des approches. Cependant, d’autres méthodes à base de

densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la

section 2.2.a.

Les algorithmes de clustering diffèrent également par la stratégie mise en place pour

construire les clusters. Comme introduit au début de ce chapitre, la notion de similarité est

utilisée par une part importante des approches. Cependant, d’autres méthodes à base de

densité ou de modèles probabilistes existent. Ces différentes approches sont présentées dans la

section 2.1.

Table 4.1 : Exemple des degrés d’appartenance des objets aux clusters pour un résultat dur, dou et

flou

2.1 - Structures des résultats de clustering

Le résultat d’un algorithme de clustering peut se présenter sous différentes formes selon

qu’il est possible ou non que deux clusters se chevauchent, c’est-à-dire qu’un objet puisse

appartenir ou non à plusieurs clusters en même temps.

Page 48: Systemedinformationarabe

Système de recherche d’information arabe

47

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Le résultat le plus simple et le plus souvent rencontré est le clustering dur (hard

clustering).Dans un clustering dur, chaque élément appartient à un et un seul cluster.

L’ensemble des données X est divisé en un ensemble de K clusters, C = {C1 , . . . , CK },

formant une partition de X, c’est-à-dire ∪K Ck = X.(k=1).

Ce type de résultat est le plus courant et le plus facilement interprétable par l’expert.

Cependant il peut être nécessaire de donner plus de flexibilité aux clusters. En effet, il peut

arriver que certains objets se distinguent de manière trop significative des autres objets, et leur

affecter un cluster peut perturber le processus de clustering. Il arrive que ces objets soient

rejetés et qu’aucun cluster ne leur soit affecté dans le résultat final. On parle alors de

clustering dur partiel, c’est-à-dire que chaque objet appartient à un ou aucun cluster.

De plus, la frontière entre les clusters peut être difficile à définir, et il arrive que

certains objets soient à la frontière de plusieurs clusters. Pour pouvoir refléter ce type

d’appartenance, le clustering doux (soft clustering) permet à chaque objet d’appartenir à un ou

plusieurs clusters. On peut alors parler de clustering doux partiel si dans le résultat, un

élément peut appartenir à aucun, un ou plusieurs clusters.

L’appartenance à plusieurs clusters est cependant difficile à interpréter pour l’expert.

En effet, plus les objets vont appartenir à de nombreux clusters, plus le résultat va perdre en

précision et va rendre difficile son interprétation. La clustering flou apporte alors une solution,

en permettant à chaque élément d’appartenir à chacun des clusters selon un certain degré

d’appartenance. Il est toujours possible de revenir à un clustering dur en sélectionnant pour

chaque objet le cluster dont l’appartenance est maximale. Le tableau 2.1 présente une

illustration des degrés d’appartenance d’objets aux clusters pour un résultat dur, doux et flou.

Clustering hiérarchique : La majorité des méthodes proposent un résultat sous la forme

d’une structure plate, c’est-à-dire sans lien entre les clusters. Il est cependant naturel pour

certaines applications de représenter le résultat sous la forme d’une hiérarchie de clusters. On

peut facilement imaginer des groupes relativement grossiers situés à un niveau élevé dans la

hiérarchie, qui vont se spécialiser plus on descendra dans cette hiérarchie. Plus un cluster sera

bas dans la hiérarchie plus il contiendra un faible nombre d’objets mais qui seront plus

similaires. Dans un clustering hiérarchique, un cluster peut être divisé en sous clusters,

l’ensemble des clusters étant généralement représenté par un arbre. Un objet appartient à une

et une seule feuille dans la hiérarchie, mais également à son nœud père, et ainsi de suite

jusqu’à la racine. Les méthodes de clustering hiérarchique permettent d’obtenir ce type de

Page 49: Systemedinformationarabe

Système de recherche d’information arabe

48

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

résultats. Deux grands types d’approches de clustering hiérarchique existent : les approches

par agglomération (ou ascendantes) et les approches par division (ou descendantes).

Figure 4.2 : Exemple de résultat hiérarchique.

Dans les approches par agglomération, l’algorithme part des objets et ceux-ci sont

ensuite regroupés jusqu’à obtenir un cluster unique contenant tous les objets. Les approches

divisives partent elles, de l’ensemble des données, et les divisent en clusters qui sont ensuite

divisés à leur tour de manière récursive. La figure 4.2 montre un exemple de résultat de

clustering hiérarchique à 4 clusters.

2.2 – Les Méthode de clustering

Les méthodes de clustering peuvent être divisées comme suit:

Méthodes de Partitionnement, qui permettent de construire plusieurs partitions puis

les évaluer selon certains critères

Méthodes hiérarchiques, qui créent une décomposition hiérarchique des objets selon

certains critères

Méthodes basés sur la densité : basés sur des notions de densité ou de connectivité

Méthodes de grille : basés sur une structure de granularité à multi-niveaux a plusieurs

niveaux.

2.2.a - Méthodes à partitionnement

Les Méthodes à partitionnement consistent à : Construire une partition à k clusters

d’une base D de n objets, et les k clusters doivent optimiser le critère choisi.

On distingue : Le Global optimal: qui considère toutes les k-partitions , Le Heuristic methods:

Algorithmes k-means , Fuzy C-means et k-medoids , Pour le k-means (MacQueen’67):

Page 50: Systemedinformationarabe

Système de recherche d’information arabe

49

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chaque cluster est représenté par son centre Et le k-medoids ou PAM (Partition around

medoids) (Kaufman & Rousseeuw’87): Chaque cluster est représenté par un de ses objets.

a.1 - La méthode des k-moyennes (K-Means) :

L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré) Affecter chaque objet O au cluster Ci de centre Mi tel que distance(O,Mi)

(la distance ici ça peut être par exemple la distance euclidienne ou autre

mesures que nous allons exposés dans ce chapitre) est minimal

3. Recalculer Mi de chaque cluster (le barycentre)

4. Aller à l’étape 2 si on vient de faire une affectation

Figure 4.3 : Représentation graphique d’un exemple de déroulement de l’algorithme K-means.

a.2 - La méthode de Fuzzy C-Means (FCM)

L’algorithme fuzzy c-means est très similaire à k-means. Dans le fuzzy clustering,

basé sur la logique floue, tout point (document) a un degré d’appartenance à un cluster,

Page 51: Systemedinformationarabe

Système de recherche d’information arabe

50

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

contrairement à la classification simple où un point appartient uniquement à un seul cluster. A

chaque point x, on a un coefficient donnant le degré d’appartenance au cluster i par

Couramment, la somme de ces coefficients pour un point donné est égale à 1.

Formule 4.1 : Somme des coefficients dans fuzzy c-means

Le degré d’appartenance de x au cluster i est donné par l’inverse de sa distance au centroide

de ce cluster : (center i étant le centroide du cluster i)

Formule 4.2 : Degré d’appartenance dans Fuzzy c-means

Dans fuzzy c-means, le centroide d’un cluster est la moyenne de tous les points pondérés par

leurs degrés d’appartenance à ce cluster.

Formule 4.3 : Calcule du centroïde dans Fuzzy c-means.

- m: est un réel supérieur à 1 utilisé pour normaliser les coefficients pour que leur Somme soit

égale à 1

- n: est le nombre de documents de la collection

Page 52: Systemedinformationarabe

Système de recherche d’information arabe

51

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Formule 4.4 : Degré d’appartenance normalisé dans Fuzzy c-means

L’algorithme fuzzy c-means est très similaire à k-means:

- Choisir un nombre k de clusters.

- Assigner aléatoirement à chaque point des coefficients d’appartenance aux clusters.

- Répéter jusqu’à ce que l’algorithme converge (le changement des coefficients en deux

itérations ne doit pas dépasser un seuil ε donné) :

- Calculer le centroîde de chaque cluster selon la Formule 4.3

- Pour chaque point, calculer ses coefficients d’appartenance aux clusters selon la

Formule 4.4

En plus du nombre de clusters à choisir, le problème de fuzzy c-means est le choix des

coefficients initiaux.

a.3 – La méthode des K-Medoids (PAM)

Cette méthode consiste à :

Trouver des objets représentatifs (medoïdes) dans les clusters au lieu de la moyenne.

Un cluster est représenté par un de ses objets appelés medoides qui minimise la somme des

distances à d’autres objets dans le même cluster.

Min ∑ d(Ms,Xi) , Xi € S.

Avec, S : cluster ; Mi : medoide, Xi : un élément de medoide

Le principe est de commencer avec un ensemble de medoïdes puis itérativement remplacer un

par un autre si ça permet de réduire la distance globale. Il est efficace pour des données de

petite taille.

Page 53: Systemedinformationarabe

Système de recherche d’information arabe

52

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 4.4 : Algorithme de k-Medoides

Figure 4.5 : Algorithm PAM (Partitioning Around Medoids)

2.2.b - Méthodes hiérarchiques

Les méthodes hiérarchiques construisent une hiérarchie de clusters, c’est-à-dire un

arbre de clusters pouvant se présenter sous la forme d’un dendrograme. Chaque nœud contient

Page 54: Systemedinformationarabe

Système de recherche d’information arabe

53

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

ses clusters enfants, et les nœuds frères partitionnent les objets contenus dans leurs parents.

Ce type d’approche permet d’explorer les données à différents niveaux de granularité. Les

méthodes de clustering hiérarchique sont décomposées en deux types d’approches, les

approches ascendantes et les approches descendantes. Dans les approches ascendantes,

l’algorithme part d’un grand nombre de clusters et ceux-ci sont ensuite fusionnés jusqu’à

n’obtenir plus qu’un unique groupe contenant tous les objets du jeu de données. Les

approches descendantes partent, de l’ensemble des données, et le divisent en clusters qui sont

ensuite divisés récursivement.

Dans les approches ascendantes, il est nécessaire de définir un critère de similarité

entre les clusters, qui permet à chaque étape de l’algorithme de choisir les deux clusters à

fusionner. Une hypothèse importante est l’hypothèse de monotonie. La monotonie signifie

que si s1, s2, . . ., sn sont les similarités des clusters fusionnés au cours du clustering

hiérarchique alors s1 ≥ s2 ≥ . . . ≥ sn .Un clustering hiérarchique non monotone contient au

moins une inversion si < si+1 ce qui contredit l’hypothèse fondamentale de fusionner les deux

meilleurs clusters candidats à chaque étape.

Le clustering hiérarchique ascendant ne nécessite pas de prédéfinir un nombre de

clusters. Cependant, si un clustering plat des données est nécessaire, il est possible d’effectuer

une coupe dans la hiérarchie au niveau qui propose le nombre de clusters demandé. Il est

également possible de définir un niveau de similarité entre les clusters au-delà duquel on ne

souhaite plus fusionner les clusters. Un certain nombre d’heuristiques existent pour choisir à

quel niveau de la hiérarchie il est judicieux d’effectuer une coupe pour obtenir le meilleur

partitionnement des données.

Il existe plusieurs stratégies pour calculer la similarité entre les clusters, les plus

connues étant : single-link, complete-link et average-link. La stratégie single-link compare les

deux clusters en con-sidérant la distance minimale entre les objets des deux clusters :

Formule 4.5 : Stratégie simgle-link pour calcule de similarité

La stratégie complete-link considère la distance maximale entre les objets des deux clusters :

Page 55: Systemedinformationarabe

Système de recherche d’information arabe

54

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Formule 4.6 : Stratégie complete-link pour calcule de similarité

Enfin, la stratégie average-link considère la moyenne des distances des objets des deux clusters :

Formule 4.7 : Stratégie average-link pour calcule de similarité

La figure suivante illustre graphiquement ces différentes stratégies.

Figure 4.6 : Illustration des différentes stratégies de regroupement de clusters en clustering

hiérarchique.

On prend comme exemple d’algorithme utilisant la méthode hiérarchique l’algorithme

STC (Suffix Tree Clustering) [18], STC ne cherche pas à ranger chaque document dans un

groupe précis. Au contraire, un document peut appartenir à plusieurs groupes. Contrairement

aux autres approches, STC ne représente pas un document par la liste non ordonnée des mots

qu’il contient. STC s’intéresse aux phrases communes aux documents. La méthode se déroule

ainsi :

- nettoyage du document comme d’habitude : stoplist, mots fréquents (ceux qui

apparaissent dans plus de 40% des documents ou dans moins de 3%)

- lemmatisation rapide (plusieurs, préfixes et suffixes courants : voir l’algorithme de

Light Stemmer Remarquez que le lien entre une forme lemmatisée et sa forme

d’origine est gardée : quand on montre les mots à l’utilisateur, on peut ainsi utiliser la

forme originale et non la forme lemmatisée

- les phrases de chaque document sont identifiées.

- création d’un index inversé des phrases : à chaque phrase (et chaque morceau de

phrase) on associe la liste des documents dans laquelle elle apparaît. Pour créer

rapidement cet index, utilise une structure de donnée appelée Suffix Tree.

- Pondération de chaque phrase : le score d’une phrase dépend du nombre de mots

qu’elle contient ainsi que du nombre de documents dans lesquels elle apparaît. Chaque

Page 56: Systemedinformationarabe

Système de recherche d’information arabe

55

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

phrase constitue un cluster de base. A chaque phrase est associée la liste des

documents dans lesquels elle apparaît. L’étape suivante va consister à fusionner ces

clusters de base. Pour décider quand fusionner deux clusters de base, on définit une

fonction de similarité entre deux clusters. La similarité dépend du nombre de

documents que deux clusters de base ci et cj ont en commun.

Figure 4.7 : Fonction de similarité pour le Suffix Tree Clustering

L’algorithme STC a plusieurs propriétés intéressantes :

- ses résultats ne dépendent pas de l’ordre de présentation des documents

- il est incrémental (on peut ajouter un nouveau document alors que les autres sont déjà

traités et insérés dans l’index inversé des phrases)

- il n’est pas nécessaire de donner le nombre de clusters à l’avance.

2.2.c – Méthodes basés sur une Grille

Les méthodes à base de grille sont fondées sur le principe de la discrétisation de

l’espace des données. Celui-ci est décomposé en un ensemble de cellules qui forment l’unité

de la grille. Ces méthodes ont été proposées pour réduire l’explosion combinatoire des

méthodes à base de densité qui fait suite à l’augmentation des nombres d’objets. La densité

d’une cellule est basée sur le rapport entre le nombre de points présents dans cette cellule et

son volume. Ainsi, la relation de voisinage qui servait dans les méthodes à base de densité est

remplacée par le voisinage entre les cellules, ce qui permet de réduire le nombre d’objets à

regrouper.

Le processus de clustering dans les méthodes à base de grille consiste à regrouper les

cellules denses les plus proches. L’algorithme bang [7] effectue ce regroupement de manière

hiérarchique, en partant de la grille et en fusionnant successivement les cellules denses

voisines dont la différence de densité ne dépasse pas un certain seuil. L’algorithme clique [8]

est une méthode très populaire basée sur les grilles. Il consiste à partir des cellules, et à ne

considérer que les cellules dont la densité est supérieure à un seuil. La particularité de clique

est d’explorer plusieurs sous-espaces, c’est-à-dire de considérer plusieurs sous-ensembles des

attributs qui décrivent les objets. La grille et les densités sont calculées dans ces sous-espaces,

Page 57: Systemedinformationarabe

Système de recherche d’information arabe

56

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

ce qui permet d’effectuer une sélection d’attributs de manière implicite. Ceci permet de ne

conserver que les attributs faisant ressortir la densité des cellules, et donc les clusters.

L’utilisation de grilles adaptatives dans ces algorithmes consiste à considérer des grilles

non-uniformes, c’est-à-dire dont les cellules n’ont pas toutes la même géométrie. En effet,

dans le cas où les clusters ont des densités différentes, il peut être intéressant d’avoir des

cellules n’ayant pas la même résolution dans tout l’espace des données. Adapter la grille à la

densité locale permet d’éviter ce problème. L’algorithme mafia [9] propose par exemple une

évolution de clique en créant des grilles adaptatives.

2.3 – Analyse Sémantique Latente

L’analyse sémantique latente (LSA, Latent semantic analysis) ou indexation

sémantique latente (ou LSI, Latent semantic indexation) est un procédé de traitement des

langues naturelles, dans le cadre de la sémantique vectorielle. La LSA fut brevetée en 1988[6]

et publiée en 1990 [10]. Elle permet d'établir des relations entre un ensemble de documents et

les termes qu'ils contiennent, en construisant des « concepts » liés aux documents et aux

termes.

La théorie sur laquelle s'appuie la LSA est la décomposition en valeurs singulières (SVD) qui

permet de décomposer la matrice original de termes des documents du modèle d'espace

vectoriel et de conserver seulement les k plus grandes valeurs singulières de la matrice des

valeurs singulières S0 voir Figure 4.5.

A partir de la collection complète de documents, la matrice mot-document est calculée dans

laquelle chaque entrée consiste à un poids correspondant à un terme spécifique dans un

document spécifique. Le SVD de cette matrice mot-document est ensuite calculée et les

petites valeurs singulières sont éliminées de la matrice des valeurs singulières. Le résultat du

vecteur singulier et la matrice des valeurs singulières sont utilisés pour mapper les vecteurs

basés de terme des documents et des requêtes dans un sous-espace dans lequel les relations

sémantiques de la matrice terme-document sont conservées tandis que les variations de

l’utilisation des termes sont supprimées.

Pour le cas de la recherche d'information, les documents peuvent être classés (recherchés)

dans l'ordre décroissant de la similarité par rapport à une requête donnée par le calcul

normalisé des produits scalaires (similarité cosinus) sur les vecteurs basés des termes (avant le

Page 58: Systemedinformationarabe

Système de recherche d’information arabe

57

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

SVD et l'élimination) ainsi que les vecteurs basés des concepts (après le SVD et

l'élimination).

De même, en calculant les similarités entre les paires de documents en utilisant la matrice

original terme-document ainsi que la matrice term-document de rang réduit, nous pouvons

également effectuer le clustering basée sur les termes et le clustering conceptuel,

respectivement.

2.3.a – Composantes du SVD

La matrice terme-document X, a t lignes (une pour chaque terme qui apparaît dans

l'ensemble choisi de documents) et d colonnes (une pour chaque document dans la collection).

Le SVD, X = T0 S0 D0T résulte dans une matrice t x m. T0 représente les colonnes

orthonormées qui sont appelées les vecteurs singuliers de gauche, est une matrice diagonale

m x m. S0, c’est les valeurs singulières positives triées en ordre décroissant, est une matrice m

x d. D0, représente les colonnes orthonormées qui sont appelées les vecteurs singuliers de

droite.

La valeur m est le rang de la matrice X. La figure 4.5, représente le SVD de X. Avec

T0, S0, et D0 sont des matrices, et X peut être reconstituée avec précision. La clé d’innovation

dans les LSI est de ne retenir que les k plus grand valeurs singulières de la matrice S0 et

mettre les autres à zéro. La valeur de k est un paramètre de conception -les petites valeurs sont

généralement choisis.

Après la décomposition, la matrice originale, X est approchée par Y = T S DT, où T est une

matrice t x k avec des colonnes orthonormées. S est une matrice diagonale k x k à valeurs

positives, et D est une matrice d x k avec des colonnes orthonormées. (Voir. Figure 4.5).

Page 59: Systemedinformationarabe

Système de recherche d’information arabe

58

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 4.8 : Décomposition en valeurs singulières -Y est l'approximation de X

2.3.b – Exemple d’algorithme basé sur la LSI

La performance d’un algorithme de Clustering est lié a 2 facteurs le premier facteur

c’est la pertinence du cluster c'est-à-dire que les documents du cluster doivent représenter un

concept commun et le 2éme facteur c’est la qualité de la description ou comme on l’appelle

label de cluster, une label insignifiante ne donne pas une idée sur le contenu de cluster,

malheureusement la plupart des algorithmes de Clustering adopte l’approche qui consiste à

choisir le terme qui a la plus grand pondération comme label cependant cette approche ne

donne pas des résultats satisfaisante.

Lingo Clustering [18] présente une nouvelle approche qui consiste en générale a

trouvé d’abord la description la plus significatif pour chaque cluster puis à partir de cette

description trouver les documents de cluster, la figure suivante présente un pseudo code

pour l’algorithme.

Page 60: Systemedinformationarabe

Système de recherche d’information arabe

59

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 4.9 : Algorithme de Lingo Clustering

2.4 - Critères d’évaluation de la qualité d’un clustering

L’évaluation de la qualité d’un résultat de clustering est un domaine de recherche actif et de

nombreuses méthodes continuent d’être proposées régulièrement. Ceci est dû au fait que

l’évaluation d’un clustering contient toujours une part de subjectivité et qu’il est impossible de

définir un critère universel qui permettrait une évaluation sans biais de tous les résultats produits par

toutes les méthodes de clustering existantes. Cependant, un certain nombre de critères existent et

sont utilisés de manière récurrente par de nombreux chercheurs pour comparer les résultats

obtenus. Comme il existe un nombre important de résultats de clustering possibles pour un même

jeu de données, l’objectif est d’évaluer si un de ces résultats est meilleur qu’un autre. Cette notion

de meilleur est à définir et est souvent dépendante de la méthode utilisée.

2.4.a - Taxonomie des méthodes d’évaluation

Plusieurs taxonomies des méthodes d’évaluation ont été proposées dans la littérature.

Elles les regroupent principalement en trois familles. La première famille contient les mesures

non supervisées qui utilisent uniquement des informations internes aux données comme par

exemple la distance entre les objets. Ces mesures sont également appelées mesures de qualité

internes. La seconde famille contient les mesures supervisées qui calculent le degré de

correspondance entre le clustering produit par l’algorithme et un partitionnement connu des

Page 61: Systemedinformationarabe

Système de recherche d’information arabe

60

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

données. Ces mesures sont aussi connues sous le nom de mesures de qualité externes. Le

dernier groupe contient les mesures dites relatives, qui permettent pour un même algorithme

de comparer les clusterings produits par celui-ci. Les mesures relatives sont donc simplement

l’utilisation de critères internes ou externes pour faire un choix parmi plusieurs résultats

produit par un même algorithme. Dans cette section, nous allons voir les principales mesures

de qualité internes qui permettent d’évaluer un clustering.

2.4.b - Critères d’évaluation non supervisés

Les critères d’évaluation non supervisés [11] se basent sur des informations internes

au clustering comme par exemple la distance entre les objets d’un cluster et le centroïde de

celui-ci. Ces mesures se basent souvent sur la définition la plus simple du clustering qui

définit que les objets d’un même cluster doivent être les plus proches possible entre eux et que

les objets de deux clusters distincts doivent être les plus éloignés possible. Pour évaluer si un

clustering respecte cette définition intuitive, des mesures de distance sont calculées entre les

représentants des clusters et les objets du résultat. Ces mesures non supervisées permettent

d’évaluer la compacité ainsi que la séparabilité des clusters. La définition de la qualité d’un

cluster n’étant pas définie formellement, il existe de nombreux critères évaluant de manière

différente les résultats. Certains de ces critères peuvent être directement utilisés comme

fonction objective et être optimisés par un algorithme de clustering. D’autres sont cependant

trop coûteux à évaluer pour être calculés au cours de l’exécution d’un algorithme et sont par

conséquent destinés à être calculés à l’issue de l’application de celui-ci. Nous présentons dans

la suite quelques exemples de mesures d’évaluation les plus connues.

Somme des erreurs au carré (SSE) : La somme des erreurs au carré est une des

façons la plus simple d’évaluer la qualité d’un résultat. Elle est définie comme :

Formule 4.8 : Somme des erreurs au carré

avec µi le centroïde du cluster Ci , et d’une mesure de distance entre les objets. Plus la valeur

est petite plus les clusters sont compacts.

Coefficient silhouette (CS) : Le coefficient silhouette [11] permet d’évaluer la

compacité des clusters ainsi que la séparabilité de ceux-ci. Il peut être calculé pour chaque

objet, pour chaque cluster et pour le clustering entier. Pour un objet x il est défini comme :

Page 62: Systemedinformationarabe

Système de recherche d’information arabe

61

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Formule 4.9 : Coefficient silhouette pour un Objet

avec ax la distance moyenne entre l’objet x et tous les autres objets appartenant au

même cluster que x, et bx la distance moyenne entre x et tous les objets n’appartenant pas à ce

même cluster. Le coefficient CS(x) varie entre -1 et 1. Une valeur positive (ax < bx ) signifie

que les objets appartenant au même cluster que x sont plus proches de x que des objets des

autres groupes. Pour un cluster, le coefficient silhouette est la moyenne des coefficients des

objets appartenant à ce cluster :

Figure 4.10 : Illustration du calcul du coefficient silhouette pour chaque objet d’un clustering.

Enfin, pour un clustering, le coefficient silhouette est égal à la moyenne des coefficients de ses

clusters :

Formule 4.10 : Coefficient silhouette pour un clustering

3 – Conclusion

Le clustering est une tâche dont l’objectif est de trouver des groupes au sein d’un ensemble

d’objets. Dans ce chapitre, nous avons étudié les grands concepts du clustering, les principales

Page 63: Systemedinformationarabe

Système de recherche d’information arabe

62

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

méthodes existantes ainsi quelque notions de leurs évaluation et leurs comparaison. Il en

ressort qu’un nombre important de méthodes existent et qu’il est souvent difficile de faire un

choix parmi celles-ci. Ce choix est crucial dans la recherche d’informations et conditionné par

le type de résultat que l’expert veut obtenir. Dans le chapitre suivant on va passer à

l’implémentation d’un prototype pour la recherche d’informations arabe on intégrant

quelque méthode de clustering.

Page 64: Systemedinformationarabe

Système de recherche d’information arabe

63

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Chapitre 5 : Prototype d’un Système

de recherche d’information Arabe

Page 65: Systemedinformationarabe

Système de recherche d’information arabe

64

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

1 – Introduction

De nos jours, les ressources disponibles sur le web augmentent considérablement.

Dans cet immense entrepôt de données, les systèmes de recherche d’information actuels ne

permettent pas de retourner aux utilisateurs les documents répondant exactement à leurs

besoins exprimés par une requête sur une collection de documents et surtout pour des langues

moins connus comme l’arabe. Cela est dû, en grande partie, à la phase de prétraitement et aux

techniques d’indexation utilisées. Afin d’améliorer la pertinence de la recherche

d’information arabe, nous proposons un système qui se base sur des algorithmes de

lemmatisation pour le traitement morphologique de la langue arabe et d’autre de

Clustering pour améliorer la pertinence des résultats.

2– Architecture Fonctionnelle du système

On peut présenter notre système par un ensemble de module chaque modèle permet

un traitement bien déterminé :

Page 66: Systemedinformationarabe

Système de recherche d’information arabe

65

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

2.1 - Module de Prétraitement Lemmatisation

Le processus de Prétraitement comporte la suppression des stops word à l’aide

d’une liste déjà définie puis la tokenization qui consiste à extraire les mots du documents

et enfin on applique un algorithme de stemming arabe , on peut englobé ces opérations

ont une seul phase qu’on va appeler la phase d’analyse morphologique assuré par un

analyseur . Ce traitement sera appliqué pour les documents ainsi que pour les requêtes lors

d’une recherche.

2.1.a – Module d’indexation

L'indexation consiste à donner accès aux documents à partir d'une indication

concernant leur contenu et/ou leur nature (forme, type). On considère souvent que l'indexation

Document

Module d’Indexation

Requête

Module de

Clustering

Module de Prétraitement et Lemmatisation (Analyser)

Ou

Résultats

Ensemble des

documents

pertinents

Résultats

Ensemble des

documents

pertinents

regroupés dans des

clusters

Module de

recherche

(Searcher)

Figure 5.1 : Architecture Fonctionnelle du système

Page 67: Systemedinformationarabe

Système de recherche d’information arabe

66

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

(appelée aussi "indexation matière") doit refléter le sens, le contenu du document : il s'agirait

d'un travail de traduction (voir ci-dessous les techniques employées). On peut parler ici d'une

approche sémantique. On peut aussi considérer que l'indexation a d'abord pour but de signaler

les documents et d'orienter le public vers les documents pertinents : dans cette perspective, il

ne s'agit pas seulement de traduire le contenu des documents, il faut aussi donner aux lecteurs

les pistes qui le conduiront vers le document. On peut parler ici d'approche sémiologique :

indexer, c'est pourvoir le document d'un signe, d'une étiquette qui le signale. Par rapport à une

recherche sur les mots des titres (catalogues assez pauvres) ou une recherche en plein texte

(sur internet ou dans un traitement de texte), la recherche sur des documents indexés a de

grands avantages :

les titres ne sont pas toujours significatifs ;

il faut donner accès aux documents en langue étrangère ;

il faut signaler les documents non textuels : images, sons, objets ;

la recherche en plein texte se heurte aux ambiguïtés des langues naturelles :

les homonymes ("vol") et les synonymes ("tiers-monde", "pays sous-

développés", "pays en voie de développement").

On peut décrire le contenu d'un document de manière générale ou plus ou moins

détaillée : tout dépend des besoins du public. Par exemple, si un seul chapitre dans un

livre traite d'un sujet qui intéresse particulièrement les usagers de la bibliothèque, il est

utile d'indexer ce chapitre.

Une indexation idéale doit être :

Pertinente : les mots-clés utilisés doivent rendre compte avec exactitude du

contenu du document. Corollaire de ce principe : les mots choisis doivent être

aussi peu ambigus que possible.

Objective : l'indexeur ne doit pas déformer la pensée de l'auteur (pas toujours si

simple pour des sujets controversés).

Cohérente : les mêmes mots doivent désigner les mêmes notions. Un même

document, dans un même centre de documentation, sera indexé de la même

manière par plusieurs personnes, à dix ans d'intervalle (sauf si le public a

changé).

Page 68: Systemedinformationarabe

Système de recherche d’information arabe

67

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Dans notre système de recherche on utilise l’index de l’api lucene (Apache),

Lucene agit en quelque sorte comme une couche intermédiaire entre les données à

indexer et vos programmes. Pour ce faire, il indexera des objets appelés des

documents et, à partir des index, il permettra une recherche rapide et efficace dans

ces documents. Notez ici que le terme document a un sens très large : un document

pourrait être un texte Word, un fichier PDF, un ensemble de fichiers, une page web

sur un serveur distant, des informations stockées dans une base de données, etc.

Lucene n’a qu’une seule exigence : le document original doit pouvoir être converti en

fichier texte.

Un index Lucene est un ensemble indépendant de segments dans lesquels sont

stockées des informations au sujet d'un sous-ensemble de documents indexés. Chaque

segment a son propre dictionnaire de terme, son propre index de dictionnaire de terme,

et son propre stockage de document (valeur de champ stocké) . Toutes les

informations de segments sont stockées dans un fichier _xxxxx.cfs, où xxxxx est le nom

d'un segment. Dès qu'un fichier de segment d'index est créé, il ne peut être mis à jour.

De nouveaux documents sont ajoutés à de nouveaux segments. Les documents

supprimés sont seulement marqués comme supprimés dans un fichier facultatif

<segmentname>.del.

La mise à jour de document est effectuée en tant qu'opérations distincts de

suppression et d'ajout. Ceci simplifie l'ajout de nouveaux documents, et permet de

mettre à jour simultanément à l'aide des opérations de recherche. D'un autre côté,

utiliser plusieurs segments (avoir un document par segment est un cas exceptionnel)

augmente le temps de recherche :

La récupération d'un terme depuis le dictionnaire est effectuée pour chaque

segment.

Le dictionnaire de terme de l'index est pré-chargé pour chaque segment (ce

processus occupe la plupart du temps de recherche pour de simples requêtes et

nécessite aussi de la mémoire supplémentaire).

Si les termes des dictionnaires de recherche atteignent un point de saturation, la

recherche à travers un segment est N fois plus rapide que la recherche à travers N

Page 69: Systemedinformationarabe

Système de recherche d’information arabe

68

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

segments dans la plupart des cas. L'optimisation d'index fusionne deux segments ou

plus en un segment unique. Un nouveau segment est ajouté à la liste des segments de

l'index, et les anciens segments sont exclus.

La mise à jour de la liste de segments s'effectue de manière atomique. Ceci donne

la capacité d'ajouter de nouveaux documents simultanément, d'effectuer des

optimisations d'index, et de chercher à travers l'index.

L'auto-optimisation d'index s'effectue après chaque génération de segment. Elle

fusionne l'ensemble des plus petits segments en des segments plus grands, et les

segments plus grands en des segments encore plus grands, si nous avons suffisamment

de segments à fusionner. L'auto optimisation d'index est contrôlé par trois options :

MaxBufferedDocs (Le nombre minimal de documents requis avant que les

documents mis en mémoire tampon soit écrits dans un nouveau segment) ;

MaxMergeDocs (Le plus grand nombre de documents fusionnés par une

opération d'optimisation) ; et

MergeFactor (qui détermine la fréquence à laquelle les indices de segments

sont fusionnés par les opérations d'auto-optimisation).

Si nous ajoutons un document par exécution de script, MaxBufferedDocs n'est

finalement pas utilisé (seul un segment avec un seul document est créé à la fin de

l'exécution du script, moment auquel démarre le processus d'auto-optimisation).

Figure 5.2 : Structure d’index de Lucene

Page 70: Systemedinformationarabe

Système de recherche d’information arabe

69

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Les fichiers qui représentent l’index de lucene :

- Segments file (segment_N,segment.gen) : ce sont des fichiers qui

contiennent une référence vers les segments active de l’index

- Lock File (write.lock) : fichier de verrouillage de l’index

- …..

2.1.b – Module de recherche

Ce Module permet une recherche sur l’index, on utilise Le modèle standard espace

vectoriel (VSM). Il a pour but de donner plus d’importance aux termes apparaissant souvent

(term frequency) dans le document, mais qui sont relativement rares dans l’ensemble de la

base de documents. Les documents et requêtes sont représentés comme des vecteurs. Si un

terme apparaît dans un document, sa valeur dans le vecteur est non-nulle. Le vecteur se

présente sous cette formule : V = [w1,w2,….,wn] où w est le poids de chaque terme. La partie

suivante donne plus de compréhension sur les calculs du modèle vectoriel en tf-idf (voir le

chapitre 2.4). Ces informations proviennent de l’ouvrage suivant : Introduction to Information

Retrieval écrit par Christopher D. Manning.

2.1.c– Module de Clustering

Au lieu d’envoyer comme résultats un ensemble de documents le Clustering permet

de structurer les documents en des groupes qui permettent à l’utilisateur une bonne

visibilité des résultats.

Pour ce module on utilise l’api Carrot2 c’est une api qui facilite l’appelle de

clustering avec différents algorithmes

3 – Analyse est conception

3.1 - Diagramme de cas d’utilisation

Le diagramme de cas d’utilisation représente le système d’un point de vue utilisateur

Page 71: Systemedinformationarabe

Système de recherche d’information arabe

70

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 5.3 Diagramme de cas d’utilisation

3.2 – Diagramme de classe et analyse

3.2.a – Diagramme de classe du module analyser (LightStemmer)

Recherche avec clustering

Recherche des

documents

Recherche direct

Utilisateur

« extend » « extend »

Configurations de la

recherche

Changer le

lemmatiseur

Changer la

méthode de

clustering

« extend » « extend »

Ajouter un document

dans la base

Page 72: Systemedinformationarabe

Système de recherche d’information arabe

71

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 5.4 : Diagramme de classe d’un arabic analyser basé sur le lemmatiseur assouplit

Un analyseur est basé sur des Filters :

- StopFilter permet de vérifier si le mot est un stopword

- ArabicNormalizerFilter Permet d’effectuer les opérations de normalisation d’un mot arabe.

- ArabicStemFilter applique le light stemmer pou un mot

ArabicNormalizer

1.. 1

TokenFilter

1 ..1

ArabicAnalyser

Construct

ArabicNormalizerFilter

ArabicLightStemmer

ArabicStemFilter

StopFilter

Page 73: Systemedinformationarabe

Système de recherche d’information arabe

72

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

3.2.b– diagramme de classe du Module indexation

Figure 5.5 : diagramme de class du module d’indexation

- La classe index utilise IndexReader pour lire le contenu de l’index IndexWriter pour

écrire dans l’index

- IndexWriter utilise IndexWriterConfig pour configurer les différents paramètres

d’indexation (stockage de l’index, chemin, , Analayser, etc..)

3.2.c - diagramme de classe du Module Clustering

Index

-Path : String + add docueltn

IndexWriterConfig

IndexWriter

1 .. 1

1 .. 1

1.. 1

Writer

IndexReader

Reader 1 ..1

Config

Analyser

Stemmer

Page 74: Systemedinformationarabe

Système de recherche d’information arabe

73

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

- FieldMapper permet de faire un mapping entre les champs d’un document comme il

est défini dans l’api lucene et d’un document carrot2.

- AnalyserWapper Définie l’analyseur qui sera utilisé pour le clustering

- Clustering c’est la classe va utiliser la requête pour lire les documents dans l’index

puis appliquer le clustering avec l’algorithme choisi (les algorithmes de clustering sont

déjà intégré dans l’api carrot2).

4 – Fonctionnalités du système et résultats

4.1 – Description du Système

Le système permet d’effectuer les opérations suivantes :

la configuration de la recherche : à partir de l’interface de configuration (voir figure

5.6) on peut changer le lemmatiseur ou changer la méthode de recherche (avec ou

sans clustering) on peut aussi changer l’algorithme de clustering utilisé dans le cas où

le regroupement est activé. la configuration utilisée est toujours afficher à gauche.

AnalyserWapper

FieldMapper

1 .. 1 1 .. 1

Mapper

Index

index 1 ..1

analyser

Clustering

-ClusteringAlgo : String - Query : String - Clusters : List<Cluster>

« Interface » IFieldMapper

-Map(Query q, Analyser an,….)

-getSearchField() :String []

Page 75: Systemedinformationarabe

Système de recherche d’information arabe

74

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 5.6 : Configuration de la recherche dans le système

Envoyer un fichier : on peut envoyer un fichier et l’enregistrer dans la base de

l’index

La recherche : selon la configuration enregistrée la recherche est effectuée à partir

d’une requête, dans le cas de la recherche sans clustering on retourne la liste les

documents les plus similaires à la requête et quand la recherche est avec clustering on

retourne la liste des clusters et leurs documents selon l’algorithme choisi (voir

figure).

Figure 5.7 : Résultat de la requête «الميزانية » sans et avec clustering (Kmeans)

Page 76: Systemedinformationarabe

Système de recherche d’information arabe

75

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

4.2 Discutions des résultats

Les résultats des 3 algorithmes de clustering sont différents vu qu’ils adoptent des approches

distinctes :

- le premier algorithme (Lingo clustering) qui utilise la LSI donne des bons résultats

surtout au niveau de qualité des labels (approche description first) mais parfois il est

gravement pénalisé lorsque la phrase (ou le terme) choisie comme label est une phase

fréquent dans la langue arabe (sans aucun sens) et qui ne permet pas de définir un

groupe ou un domaine précis et par conséquent même le contenu du cluster sera

influencer (voir figure).

Figure 5.8 : Résultat de la requête « الزراعة والمباني » avec Lingo Clustering

- Le 2éme algorithme (Bisection K-means clustering) donne un résultat en générale

acceptable (sans oublier les problèmes de Kmeans : d’instabilité, possibilité de non

convergence etc…), mais pour le label il choisit le terme qui a la plus grande

pondération ce qui est considéré comme une mauvaise manière d’affecter le nom du

cluster car dans la plupart des cas le terme avec la plus grande pondération ne donnera

pas une idée sur le contenu du cluster (voir figure).

Page 77: Systemedinformationarabe

Système de recherche d’information arabe

76

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 5.9 : Résultat de la requête « الزراعة والمباني » avec bisectiong k-means (k=3)

- Le 3éme algorithme (STC Suffix Tree Clustering) il peut être plus lent avec une

grande base de documents, la pondération des phrases dépond de nombre des termes

inclus et le nombre des documents dans lesquels elle appartient ce qui semble une

bonne solution pour choisir une label cependant on peut avoir le même problème du

lingo clustering , des phase insignifiante peuvent apparaitre comme des labels des

clusters (voir figure).

Page 78: Systemedinformationarabe

Système de recherche d’information arabe

77

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Figure 5.10 : Résultat de La requête « الزراعة والمباني » avec STC Algorithme

5 - Conclusion

Le système réalisé ne donne pas bien sur des résultats parfaits cela n’est pas à cause

seulement des algorithmes de clustering c’est aussi à cause de la complexité de la langue

arabe donc il faut penser à des améliorations pour les 2 problèmes.

Page 79: Systemedinformationarabe

Système de recherche d’information arabe

78

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Conclusion et Perspective

Un système de recherche d’information (SRI) consiste à retrouver parmi une masse

volumineuse de documents ceux qui répondent précisément au besoin d’un utilisateur formulé

par le biais d’une requête en langage naturel. La principale difficulté c’est de trouver la

correspondance correcte entre l’information recherchée et l’ensemble des documents d’une

collection.

En effet, la phase de recherche consiste à retrouver les documents les plus pertinents

par rapport à une requête donnée. En général, les documents retournés sont représentés dans

un espace vectoriel et à l'aide des mesures de similarité on peut juger la pertinence des

documents par rapport à une requête. La phase d'indexation consiste à construire au préalable

une structure d'accès aux documents qui facilitera la phase de recherche. Plus la phase

d'indexation est sophistiquée, plus la phase de recherche sera rapide.

Dans ce travail on a réussie à définir les différents processus de recherche

d’information et les problèmes liés au traitement automatique de la langue arabe puis on a

réalisé un prototype du système de recherche d’informations maintenant on va viser à trouver

des solutions pour améliorer la recherche à base morphologique arabe et ensuite

concevoir un système de recherche et d’évaluation, ce système donnera la possibilité

d’intégrer et d’évaluer différente algorithmes (de lemmatisation, clustering etc…) qui

représente le cœur du système pour faire l’étude comparatif entre eux, et enfin trouver des

solutions pour intégrer correctement la dimension sémantique a la RI arabe

Page 80: Systemedinformationarabe

Système de recherche d’information arabe

79

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

Bibliographie

[1] : M. DIAB, K. HACIOGLU et D. JURAFSKY. Automatic tagging of arabic text: From

raw text to base phrase chunks. In In Proceedings of NAACL-HLT, pages 149–152, Boston,

USA, 2004.

[2]: S. KHOJA. Apt: Arabic part-of-speech tagger. In Proceedings of the Student Workshop

at the Second Meeting of the North American Chapter of the Association for Computational

Linguistics, pages 81–86, Carnegie Mellon University, Pittsburgh, 2001.

[3] J. A. HAYWOOD et H. M. NAHMAD. A new Arabic grammar. Percy Lund Humphries

Publishers

Ltd., London, 1962.

[4] L. ROMARY. Outils d’accés à des ressources linguistiques. Ingénierie des langues,

pages 193–212, 2000.

[5] E. LAPORTE. Mot et niveau lexical. Ingénierie des langues, pages 25–46, 2000.

[6] B. PINCEMIN. Construire et utiliser un corpus : le point de vue d’une sémantique

textuelle interprétative. In Atelier Corpus et TAL : pour une réflexion méthodologique,

Conférence TALN 99, pages 26–36, 1999.

[7] E. Schikuta et M. Erhart. The bang-clustering system: Grid-based data analysis. In

International Symposium on Advances in Intelligent Data Analysis, Reasoning about Data,

pages 513–524, 1997.

[8] C. C. Aggarwal, J. L. Wolf, P. S. Yu, C. Procopiuc, et J. S. Park. Fastalgorithms for

projected clustering. SIGMOD Record, 28(2) :61–72, 1999.

[9] H. S. Nagesh, S. Goil, et A. Choudhary. A scalable parallel subspace

clustering algorithm for massive data sets. In International Conference on Parallel

Processing, pages 477–484, 2000.

Page 81: Systemedinformationarabe

Système de recherche d’information arabe

80

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

[10] Scott Deerwester, Susan Dumais, George W. Furnas, Thomas K. Landauer, Richard

Harshman, « Indexing by Latent Semantic Analysis », dans Journal of the Society for

Information Science, vol. 41, no 6, 1990, p. 391-407

[11] M. K. Pakhira, S. Bandyopadhyay, et U. Maulik. Validity index for crisp and fuzzy

clusters. Pattern Recognition, 37(3) :487 – 501, 2004.

[12] L. Kaufman et P. Rousseeuw. Finding Groups in Data An Introduction to Cluster

Analysis. Wiley Interscience, New York, 1990.

[13] Mustapha Baziz, Mohet Boughanem, and Nathalie Aussenac-Gilles. Evaluating a

Conceptual Indexing Method by Utilizing WordNet . In Carol Peters, Fredric C.

Gey, Julio Gonzalo, and Gareth J.F. Jones, editors, Accessing Multilingual Information

Repositories : 6th Workshop of the Cross-Language Evaluation Forum, CLEF

2005, Revised Selected Papers , Vienna, Austria, 21/09/05-23/09/05, pages 238246.

Lecture Notes in Computer Science, Vol. 4022, septembre 2005.

[14] V. CLAVEAU et P. SÉBILLOT. Extension de requêtes par lien sémantique nomverbe

acquis surcorpus. In In Proceedings of 11ème conférence annuelle sur le traitement

automatique des languesnaturelles (TALN), Fez, Maroc, 2004.

[15] Mustapha Baziz, Mohet Boughanem, and Nathalie Aussenac-Gilles. Conceptual

indexing based on document content representation. In CoLIS, pages 171_186, 2005.

[16] R. BESANÇON. Intégration de connaissances syntaxiques et sémantiques dans les

représentations vectorielles des textes, Application au calcul de similarité sémantique dans le

cadre du modèle DSIR. Thèse de Doctorat, Ecole polytechnique fédérale de lausanne, Suisse,

2001.

[17] R. ABBES. La conception et la réalisation de concordancier électronique pour l’arabe.

Thèse de Doctorat, Institut national des sciences appliquées de Lyon, Lyon, France, 2004.

[18] Osinski 2003. An algorithm for clustering of web search results (Lingo).

Page 82: Systemedinformationarabe

Système de recherche d’information arabe

81

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e

[19] Salton, G. 1971. The SMART Retrieval System: Experiments in Automatic Document

Processing. Prenctice-Hall, New Jersey: Englenwood Cliffs.

[20] Maron, M. E., & Kuhns, J. (1960). On relevance, probabilistic indexing and information

retrieval. Journal of the Association for ComputingMachinery, 7(3), 216–244.

[21] Jian-Yun Nie, Michel Simard, Pierre Isabelle, and Richard Duret. Cross-language

information retrieval based on parallel texts and automatic mining of parallel texts

from the web. In SIGIR '99 : Proceedings of the 22nd annual international ACM

SIGIR conference on Research and development in information retrieval, pages 74_

81, New York, NY, USA, 1999. ACM.

[22] J. DICHY. Pour une lexicomatique de l’arabe : l’unité lexicale simple et l’inventaire fini

des

spécificateurs du domaine du mot. Meta, XLII, 2:291–306, 1997.

[22] E. DITTERS. The description of modern standard arabic syntax in terms of functions and

categories.Langues et Littératures du Monde Arabe, 2:115–151, 2001.

[23] J. VÉRONIS. Annotation automatique de corpus : état de la technique. Ingénierie des

langues,Hermes, 1(1):52–58, 2000.

[24] V. CLAVEAU. Acquisition automatique de lexiques sémantiques pour la recherche

d’information.

Thèse de Doctorat, Université de Rennes I, Rennes, France, 2003.

[25] J. DICHY, A.F. BRAHAM et S. GHAZALI. La base de connaissances linguistiques

dinaar1. In

Colloque international sur le traitement automatique de l’arabe, pages 45–56, Manouba,

Tunisie,2002.

Page 83: Systemedinformationarabe

Système de recherche d’information arabe

82

Syst

ème

de

rech

erch

e d

’in

form

atio

n a

rab

e