Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des...
-
Upload
guy-renaud -
Category
Documents
-
view
113 -
download
5
Transcript of Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des...
![Page 1: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/1.jpg)
Extraction des formes dérivées des mots arabes par des automates
déterministes
Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT
*Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine
![Page 2: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/2.jpg)
Problématique
Extraction des formes dérivées des mots arabes par des automates déterministes
2
Complexe et très fluctuée, la langue arabe nécessite
un outil de Racinisation robuste, Pour
une meilleure performance en terme d’indexation et de recherche d’information.
![Page 3: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/3.jpg)
Plan
Extraction des formes dérivées des mots arabes par des automates déterministes
3
Définition & Approche Rappel sur la théorie des automatesLe cas du langage arabe
La dérivation Automate reconnaissant le langage arabe
Application javaRésultatsConclusion et perspectives
![Page 4: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/4.jpg)
Définition & Approche
Extraction des formes dérivées des mots arabes par des automates déterministes
4
Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour
en tirer la racine d’où il est dérivé.
Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme
de mot.
![Page 5: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/5.jpg)
Rappel sur la théorie des automates
Extraction des formes dérivées des mots arabes par des automates déterministes
5
Un automate A est défini comme suit:
A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A)
Exemple : mots binaire ayant u = 0 ou u =
01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe
Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,
(4;0;4)} Exemple de chaines reconnues: 001 00100000 010101000000Ainsi L(A) = {w = umv / u = 0 | vide et m
= (01)*01 et v = vide | 0*}
![Page 6: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/6.jpg)
Le cas du langage arabe
Extraction des formes dérivées des mots arabes par des automates déterministes
6
Les mots arabes se décomposent en trois grandes catégories :
Pronoms (al horouf) : fixes et dénombrables
Noms (al asma-a) : fixes ou obtenus par dérivation
Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc.
![Page 7: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/7.jpg)
La dérivation en arabe(1)
Extraction des formes dérivées des mots arabes par des automates déterministes
7
Les verbes :Les verbes se décomposent en deux
catégories : Non dérivable (jaamid) : ,نعم حبذا, ليس …Dérivables (Motassarrif) : ,علم ...جحد
La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes :
) donne كتب اكتتب --تكاتب --كاتب ) Ainsi qu’à des noms : �ب� donne كتب �كات ُم�ت �ٌة� �ب كات �ب� كات
![Page 8: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/8.jpg)
La dérivation en arabe(2)
Extraction des formes dérivées des mots arabes par des automates déterministes
8
Les verbes se dérivent suivant 3 temps:1.Le présent ou Al modari3 2.Le passé ou Al maadi3.Et l’impératif ou Al AmrExemple:
Article Verbe Al modaari3 Al maadi Al Amr
ils/elles هم قتل يقتلون قتلوا اقتلوا
![Page 9: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/9.jpg)
Automate reconnaissant le langage arabe(1)
Extraction des formes dérivées des mots arabes par des automates déterministes
9
Soit ∑ = l’alphabet arabe∑c = {alef, yaa, waw, alef Maqsoura, tah
Marbouta} = { ا ي و ى l’ensemble des lettres communes : {ةaux mots arabes
∑m = {alef avec Hamza, noon, yaa, taa}
= { أ ن ي lettres introduisant le temps :{تprésent.
Soit LA = langage arabe.Et L0, L1 et L2 les trois sous langages de LA où:
![Page 10: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/10.jpg)
Automate reconnaissant le langage arabe(2)
Extraction des formes dérivées des mots arabes par des automates déterministes
10
L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c}
L2 = {m € LA / m est spécifique}L1 = LA – L0 U L2 : les mots dérivés des verbes dites
Mo3tallaIl est facile de constater que L0, L1, L2 définissent une
partition de LA :• L0∩L1, L0∩L2 et L1∩L2 sont vide• LA = L0 U L1 U L2
Construction de L0 :Soit L0 = L3 U L4Où : L3 = {m € L0 / |racine(m)|=3}L4 = {m € L0 / |racine(m)|>3}
![Page 11: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/11.jpg)
Automate reconnaissant le langage arabe(3)
Extraction des formes dérivées des mots arabes par des automates déterministes
11
Dans notre approche, pour chaque schème de verbe on associe trois automates :
1.A_fverbe_present2.A_fverbe_passé 3.A_fverbe_AmrEt pour chaque nom un automate1.A_fnom
![Page 12: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/12.jpg)
Automate reconnaissant le langage arabe(4)
Extraction des formes dérivées des mots arabes par des automates déterministes
12
Exemple A_fa3ala_present
3 lfSS1S0
D1
D2D3
D4
D5
D6
D7
D8
D9
D10
D11
ف،ل
λ ف،ل،س
ت،ي،أ،نl
ن
ه،ك ه،ك ن
ا
س
ن،م
هن
م
اا
ه،ك
ه،كl : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
ll
Dا،يهو
ك
![Page 13: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/13.jpg)
Automate reconnaissant le langage arabe(5)
Extraction des formes dérivées des mots arabes par des automates déterministes
13
3 lfSS1S0
D1
D2D3
D4
D5
D6
D7
D8
D9
D10
D11
،لف
λ ف،ل،س
،أ،نيت،
ن
ه،ك ه،ك ن
ا
س
ن،م
هن
م
اا
ه،ك
ه،كl : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Dا،يهو
ك
Exemple fa3ala : ا َم� �َك�ُه ُي�َع�ل!َم َف�َس�
ع لم
![Page 14: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/14.jpg)
Automate reconnaissant le langage arabe(6)
Extraction des formes dérivées des mots arabes par des automates déterministes
14
3 lfSS1S0
D1
D4 D3
ن
l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_infa3ala_passéا ll
D
نم
ت
و
D2
ن،ا
ا
و
و،ل،ف
![Page 15: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/15.jpg)
Automate reconnaissant le langage arabe(7)
Extraction des formes dérivées des mots arabes par des automates déterministes
15
3 lfSS1S0
D1
D4 D3
ن
ف
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: وانصرفواا صر
D
نم
ت
و
D2
ن،ا
ا
و
،ل،فو
![Page 16: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/16.jpg)
Automate reconnaissant le langage arabe(8)
Extraction des formes dérivées des mots arabes par des automates déterministes
16
3 lfSS1S0
D1
D3
l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_ifta3ala_Amrا ll
D
ت
و
D2
و،ف
ا،ن،ي
ا
D3
D3
ه ه
ن م
ا
ه
![Page 17: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/17.jpg)
Automate reconnaissant le langage arabe(9)
Extraction des formes dérivées des mots arabes par des automates déterministes
17
3 lfSS1S0
D1
D3
ن
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: امتحنهماا مح
D
ت
و
D2
و،ف
ا،ن،ي
ا
D3
D3
ه ه
ن م
ه
ا
![Page 18: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/18.jpg)
Automate reconnaissant le langage arabe(10)
Extraction des formes dérivées des mots arabes par des automates déterministes
18
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: A_fa3il
ا ll
D
و،اD3
،ب و،ف
م،نه،ك
ا
lD6
3Aflا ll
S2
ل،ب ل
ة
،ك ،ب لS l 3 lAf lا l
D2
ي ه،ك
ا
ا
ت
ت
ه،ك
D7
ت ن
ا،ي
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
![Page 19: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/19.jpg)
Automate reconnaissant le langage arabe(11)
Extraction des formes dérivées des mots arabes par des automates déterministes
19
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: بالحاملين
ا l
l
D
و،اD3
، بو،ف
م،نه،ك
ا
lD6
3Afال حم
S2
ل،ب ل
ة
،ك ،ب لS l 3 lAf lا l
D2
ي ه،ك
ا
ا
ت
ت
ه،ك
D7
ت ن
يا،
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
![Page 20: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/20.jpg)
Automate reconnaissant le langage arabe(12)
Extraction des formes dérivées des mots arabes par des automates déterministes
20
3
l
AfS1
D4
D5l
l : est n’importe quelle lettre de ∑ -∑cλ : la transition vide
Exemple: لمال�كتيكما
ا l
l
D
و،اD3
، بو،ف
،نمه،ك
ا
lD6
3Afال حم
S2
ل،ب ل
ة
،ك ل ،بS م 3 lAf اك ل
D2
ي كه،
ا
ا
ت
ت
ه،ك
D7
ت ن
يا،
ه،ك
Dا8
D9 ه،ك
D7
ت
ي
![Page 21: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/21.jpg)
Automate reconnaissant le langage arabe(13)
Extraction des formes dérivées des mots arabes par des automates déterministes
21
Exemple A_Wa3ala_present
3 lSS1S0
D1
D2
D3
D4
D6
D5
D7
ف،ل
λ ف،ل،س
ت،ي،أ،نl
ن
ه،ك ه،ك ن
ا
س
ن،م
ا
ه،ك
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
l
Dا،يو
ه،ك
![Page 22: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/22.jpg)
Automate reconnaissant le langage arabe(14)
22
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Exemple Wa3ala : َفَسُيزنُهَما
ز3ن lSS1S0
D1
D2
D3
D4
D6
D5
D7
λ ف،ل،س
ن
ه،ك ه،ك ن
من،ا
ا
ه،ك
l : est n’importe quelle lettre de ∑ -∑c
λ : la transition vide
Dا،يو
،كه
،لف س،أ،نيت،
![Page 23: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/23.jpg)
Application java
Extraction des formes dérivées des mots arabes par des automates déterministes
23
Document Di
BD mots videsPrétraitement
RaciniseurRaciniseur
SC Maker
Table lexicale Di(Mij,Fij)
Classes sémantiques Ci
coMat maker
METRIQUE
Di_INDEX
Algorithme: RaciniseurSoit m un mot1: chercher les automates dont l ’entrée correspond à m[0]2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si3: print root, etiquette;
![Page 24: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/24.jpg)
Résultats
Extraction des formes dérivées des mots arabes par des automates déterministes
24
![Page 25: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/25.jpg)
Résultats
Extraction des formes dérivées des mots arabes par des automates déterministes
25
![Page 26: Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,](https://reader035.fdocuments.fr/reader035/viewer/2022062404/551d9db8497959293b8dca89/html5/thumbnails/26.jpg)
Conclusion et Perspectives
Extraction des formes dérivées des mots arabes par des automates déterministes
26
Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat
Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un
moteur de recherche pour évaluation