Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes...

32
Génération et analyse de mots Génération et analyse de mots arabes (GAMAR) : arabes (GAMAR) : vers une plateforme d’enrichissement vers une plateforme d’enrichissement des requêtes pour la recherche des requêtes pour la recherche d’information ou la fouille de textes d’information ou la fouille de textes Joseph Dichy Joseph Dichy Université Lumière-Lyon 2 Université Lumière-Lyon 2 ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) Journées du groupe SILAT, Lyon, 26-27.03.2010: Journées du groupe SILAT, Lyon, 26-27.03.2010: Veille stratégique, évaluation et innovation avec des approches Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) sémantiques (français, arabe, anglais)

Transcript of Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes...

Page 1: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

  Génération et analyse de mots Génération et analyse de mots arabes (GAMAR) : arabes (GAMAR) :

vers une plateforme vers une plateforme d’enrichissement des requêtes d’enrichissement des requêtes pour la recherche d’information pour la recherche d’information

ou la fouille de textesou la fouille de textes Joseph DichyJoseph Dichy

Université Lumière-Lyon 2Université Lumière-Lyon 2ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH)ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH)

Journées du groupe SILAT, Lyon, 26-27.03.2010: Journées du groupe SILAT, Lyon, 26-27.03.2010: Veille stratégique, évaluation et innovation avec des Veille stratégique, évaluation et innovation avec des

approches sémantiques (français, arabe, anglais)approches sémantiques (français, arabe, anglais)

Page 2: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

2

Mots clésMots clés►recherche d'information et fouille de recherche d'information et fouille de

textestextes►ressource lexicale (base de ressource lexicale (base de

connaissances)connaissances)►théorie des spécificateurs linguistiquesthéorie des spécificateurs linguistiques►propriétés lexico-sémantiques ; propriétés lexico-sémantiques ; ►ontologies linguistiques ; ontologies linguistiques ; ►relations lexique-grammaire relations lexique-grammaire ►Génération vs analyseGénération vs analyse► lexiques généréslexiques générés

Page 3: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

3

Objet généralObjet général

►Quelles ressources lexicales (conçues Quelles ressources lexicales (conçues comme bases de connaissances) sont comme bases de connaissances) sont nécessaires/utiles pour la recherche nécessaires/utiles pour la recherche d'information, la fouille de textes, la d'information, la fouille de textes, la veille stratégique, l'indexation veille stratégique, l'indexation automatique, etc. ?automatique, etc. ?

Page 4: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

4

Domaine d'illustrationDomaine d'illustration

►La recherche d'information, la fouille La recherche d'information, la fouille de textes, la veille stratégiquede textes, la veille stratégique

Page 5: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

5

Recherche d'information avec Recherche d'information avec Google 1aGoogle 1a

► Dans la veille stratégique, la recherche d'information Dans la veille stratégique, la recherche d'information ou la fouille de textes, il y a en gros deux approches: ou la fouille de textes, il y a en gros deux approches: l'analyse morphologique au plein sens du terme, l'analyse morphologique au plein sens du terme,

coûteuse en tempscoûteuse en temps celle de Google (très rapide), que je vais rappeler celle de Google (très rapide), que je vais rappeler

en qq mots:en qq mots:

► Dans la 1Dans la 1rere phase: page ranking (note de 0 à 10) - phase: page ranking (note de 0 à 10) - "Google dance""Google dance"

Page 6: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

6

Recherche d'information avec Recherche d'information avec Google 1a (rappel - suite)Google 1a (rappel - suite)

► Cette approche exclut le recours à un analyseur Cette approche exclut le recours à un analyseur morphologique associé à une base de données morphologique associé à une base de données lexicales,lexicales,

► en raison des ralentissements qui en en raison des ralentissements qui en résulteraient : résulteraient : Pour la recherche Pour la recherche التربية التربية وزراء wuzarâ' al-tarbiyawuzarâ' al-tarbiya وزراء

"ministres de l'éducation""ministres de l'éducation" , on obtient 5 M de , on obtient 5 M de résultats en 0,21 sec. Avec un analyseur analysant résultats en 0,21 sec. Avec un analyseur analysant 100.000 mots par seconde, cela prendrait 50 x plus 100.000 mots par seconde, cela prendrait 50 x plus de temps, soit 17,5 minutes!de temps, soit 17,5 minutes!

A quoi s'ajouteraient les ralentissements des A quoi s'ajouteraient les ralentissements des phases 1 (crawling, pageranking…) et 2 phases 1 (crawling, pageranking…) et 2 (indexation…)(indexation…)

Page 7: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

7

Recherche d'information avec Recherche d'information avec Google 2a qq résultatsGoogle 2a qq résultats

► Pour Pour ra'as al-mal ra'as al-mal المال المال رأس capital", au "capital", au" رأس21.03.2010: 2.380.000 résultats, incluant:21.03.2010: 2.380.000 résultats, incluant: la forme avec l'article la forme avec l'article ra'as ra'as al-al-mal mal مالمالال ال رأسرأس

la forme-"valise" (en arabe la forme-"valise" (en arabe nanaḥtḥt) ) رأسمالرأسمال , , variantevariante graphique graphique راسمالراسمال

► N'incluant pas les pluriels avec variation du N'incluant pas les pluriels avec variation du patron morphosyllabique (≠ pluriels par patron morphosyllabique (≠ pluriels par suffixation):suffixation): ( رؤوسرؤوس أموال) (ال أموال) 638.000638.000 – – ال rés. (recherche rés. (recherche

propre)propre) 65.60065.600 – – رساميلرساميل rés. (recherche propre) rés. (recherche propre)

Page 8: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

8

Recherche d'information avec Recherche d'information avec Google 2b qq résultats Google 2b qq résultats

► En français, il faut faire deux requêtes, l'une En français, il faut faire deux requêtes, l'une pour "capital", l'autre pour "capitaux"pour "capital", l'autre pour "capitaux"

► En anglais, on rencontre un problème En anglais, on rencontre un problème d'ambiguïté: d'ambiguïté: capital capital au sens de "capitale" et au sens de "capitale" et capital capital au sens de "capitaux"au sens de "capitaux"

► Dans les trois langues, il est difficile de Dans les trois langues, il est difficile de rechercher sélectivement l'ouvrage de Karl rechercher sélectivement l'ouvrage de Karl Marx, Marx, Le Capital.Le Capital.

► Mais ne pleurons pas! Nous sommes "contents" Mais ne pleurons pas! Nous sommes "contents" d'avoir ce que nous avons… Question: peut-on d'avoir ce que nous avons… Question: peut-on faire mieux sans perdre ce que nous avons?faire mieux sans perdre ce que nous avons?

Page 9: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

9

Recherche d'information avec Recherche d'information avec Google 2c qq résultats Google 2c qq résultats

► Avec Avec wizâra, wizâra, وزارةوزارة "ministère", on a: "ministère", on a: pour pour (al-)wizâra (al-)xârijiyya, (al-)wizâra (al-)xârijiyya, ((الـالـ)) ) خارجية ) الـ (وزارة خارجية ) الـ , , وزارة

"ministère des affaires étrangères" 2.450.000 rés."ministère des affaires étrangères" 2.450.000 rés.

Page 10: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

10

Recherche d'information avec Recherche d'information avec Google 2c qq résultats Google 2c qq résultats

► Avec Avec wizâra, wizâra, وزارةوزارة "ministère", on a: "ministère", on a: pour pour (al-)wizâra (al-)xârijiyya, (al-)wizâra (al-)xârijiyya, ((الـالـ)) ) خارجية ) الـ (وزارة خارجية ) الـ , , وزارة

"ministère des affaires étrangères" 2.450.000 rés."ministère des affaires étrangères" 2.450.000 rés. pour pour xârijiyya, xârijiyya, 3.520.000 rés.3.520.000 rés.

Page 11: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

11

Recherche d'information avec Recherche d'information avec Google 2c qq résultats Google 2c qq résultats

► Avec Avec wizâra, wizâra, وزارةوزارة "ministère", on a: "ministère", on a: pour pour (al-)wizâra (al-)xârijiyya, (al-)wizâra (al-)xârijiyya, ((الـالـ)) ) خارجية ) الـ (وزارة خارجية ) الـ , , وزارة

"ministère des affaires étrangères" 2.450.000 rés."ministère des affaires étrangères" 2.450.000 rés. pour pour xârijiyya, xârijiyya, 3.520.000 rés.3.520.000 rés. pour pour wazîr (al-)xârijiyya, wazîr (al-)xârijiyya, ) خارجية ) الـ (وزير خارجية ) الـ ministre des "ministre des" وزير

affaires étrangères", 5.840.000 résult. qui recoupent en affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de grande partie les précédents en raison de phénomènes de cooccurrence;cooccurrence;

Page 12: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

12

Recherche d'information avec Recherche d'information avec Google 2c qq résultatsGoogle 2c qq résultats

► Avec Avec wizâra, wizâra, وزارةوزارة "ministère", on a: "ministère", on a: pour pour (al-)wizâra (al-)xârijiyya, (al-)wizâra (al-)xârijiyya, ((الـالـ)) ) خارجية ) الـ (وزارة خارجية ) الـ , , وزارة

"ministère des affaires étrangères" 2.450.000 rés."ministère des affaires étrangères" 2.450.000 rés. pour pour xârijiyya, xârijiyya, 3.520.000 rés.3.520.000 rés. pour pour wazîr (al-)xârijiyya, wazîr (al-)xârijiyya, ) خارجية ) الـ (وزير خارجية ) الـ ministre des "ministre des" وزير

affaires étrangères", 5.840.000 résult. qui recoupent en affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de grande partie les précédents en raison de phénomènes de cooccurrence;cooccurrence;

pour pour wazîr (al-)tarbiya, wazîr (al-)tarbiya, ) تربية ) الـ (وزير تربية ) الـ ministre de"ministre de" وزيرl'éducation"l'éducation" 5.650.000 rés. (incluant 5.650.000 rés. (incluant wazîrat (al-)tarbiya, wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est la seule ministre de l'éducation arabe, qui est palestinienne)palestinienne)

Page 13: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

13

Recherche d'information avec Recherche d'information avec Google 2c qq résultats Google 2c qq résultats

► Avec Avec wizâra, wizâra, وزارةوزارة "ministère", on a: "ministère", on a: pour pour (al-)wizâra (al-)xârijiyya, (al-)wizâra (al-)xârijiyya, ((الـالـ)) ) خارجية ) الـ (وزارة خارجية ) الـ ministère , "ministère" , وزارة

des affaires étrangères" 2.450.000 rés.des affaires étrangères" 2.450.000 rés. pour pour xârijiyya, xârijiyya, 3.520.000 rés.3.520.000 rés. pour pour wazîr (al-)xârijiyya, wazîr (al-)xârijiyya, ) خارجية ) الـ (وزير خارجية ) الـ ministre des affaires "ministre des affaires" وزير

étrangères", 5.840.000 résult. qui recoupent en grande partie étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence;les précédents en raison de phénomènes de cooccurrence;

pour pour wazîr (al-)tarbiya, wazîr (al-)tarbiya, ) تربية ) الـ (وزير تربية ) الـ "ministre de"ministre de l'éducation"l'éducation" وزير5.650.000 rés. (incluant 5.650.000 rés. (incluant wazîrat (al-)tarbiya, wazîrat (al-)tarbiya, la seule ministre la seule ministre de l'éducation arabe, qui est palestinienne)de l'éducation arabe, qui est palestinienne)

pour pour wuzarâ' (al-)tarbiya, wuzarâ' (al-)tarbiya, ) تربية ) الـ (وزراء تربية ) الـ ministres de"ministres de" وزراءl'éducation" (au plur.), 5.000.000 de rés., ne recoupant les l'éducation" (au plur.), 5.000.000 de rés., ne recoupant les précédents qu'en cas de cooccurrence (elles sont fréquentes)précédents qu'en cas de cooccurrence (elles sont fréquentes)

Page 14: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

14

Recherche d'information 2d :Recherche d'information 2d :synthèse sur résultats avec synthèse sur résultats avec

GoogleGoogle► Une meilleure prise en charges des mots composés Une meilleure prise en charges des mots composés

qu'en mars-avril derniersqu'en mars-avril derniers► Trop d'information, les requêtes n'étant que très Trop d'information, les requêtes n'étant que très

difficilement contextualisabes (avec les "__")difficilement contextualisabes (avec les "__")► Pas assez d'information: Pas assez d'information:

les variations morphologiques ne sont pas prises en les variations morphologiques ne sont pas prises en charge (en arabe comme en français)charge (en arabe comme en français)

les recoupements entre formes morphologiquement les recoupements entre formes morphologiquement apparentées (par ex., sing.-plur.) restent aléatoiresapparentées (par ex., sing.-plur.) restent aléatoires

►……et le resteront, car les cooccurrences ne constituent et le resteront, car les cooccurrences ne constituent pas une relation sémantique stable pour pas une relation sémantique stable pour l'apprentissage automatique l'apprentissage automatique

Page 15: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

15

Peut-on améliorer ces Peut-on améliorer ces résultats?résultats?

►Oui, dans certaines conditions. Oui, dans certaines conditions. ►Deux cas généraux:Deux cas généraux:

1- Recherche du niveau du mot1- Recherche du niveau du mot 2- Recherche contextualisée2- Recherche contextualisée

►Dans les deux cas: quelle base de Dans les deux cas: quelle base de connaissances est nécessaire?connaissances est nécessaire? Dans cet exposé: cas 1Dans cet exposé: cas 1 Dans l'exposé avec M. Anizi: cas 2 Dans l'exposé avec M. Anizi: cas 2

Page 16: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

16

Au niveau du motAu niveau du mot►De quoi peut avoir besoin?De quoi peut avoir besoin?

des différentes formes des différentes formes morphologiques d'un même mot – en morphologiques d'un même mot – en l'occurrence de nomsl'occurrence de noms pluriel par suffixation : pluriel par suffixation : nanašâṭ šâṭ نشاطنشاط, ,

"activité", plur. suffixé: "activité", plur. suffixé: nanašâṭât šâṭât نشاطاتنشاطات plur. par modification du patron (ou plur. par modification du patron (ou

"pluriel brisé") :"pluriel brisé") :'ana'anašṭa šṭa أنشطةأنشطة

NB. Les verbes ne font en principe pas NB. Les verbes ne font en principe pas l'objet d'une recherche d'information.l'objet d'une recherche d'information.

Page 17: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

17

Autres ex. du niveau du motAutres ex. du niveau du mot

► ḥummâḥummâ حمىحمى, "fièvre" : 1 240 000 résultats (0,28 , "fièvre" : 1 240 000 résultats (0,28 secondes ) – pas de pluriel secondes ) – pas de pluriel

► le plur. le plur. ḥummâyâtḥummâyât 129 000129 000 : : حماياتحمايات rés. (0,36 sec.) – rés. (0,36 sec.) – c'est un plur. par suffixation, mais avec une c'est un plur. par suffixation, mais avec une transformation de transformation de ىى ââ en en يي y, y, ce qui supposerait soit ce qui supposerait soit une analyse par règles, soit la consultation d'une base une analyse par règles, soit la consultation d'une base de données lexicale.de données lexicale.

► nanaḫlaḫla نخلةنخلة, "palmier-dattier" (mais aussi: nom de , "palmier-dattier" (mais aussi: nom de famille, par ex. du chanteur N'ûla Nakhlé) : 1 340 000 famille, par ex. du chanteur N'ûla Nakhlé) : 1 340 000 rés. (0,41 secondes)  - pas d'occurrence de rés. (0,41 secondes)  - pas d'occurrence de nanaḫlḫl نخلنخل (collectif, dont (collectif, dont nanaḫlaḫla نخلةنخلة est le singulatif)est le singulatif)

► nanaḫlḫl 520 000520 000 : : نخلنخل résultats résultats

Page 18: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

18

Problèmes de polysémie 1Problèmes de polysémie 1► Des bruits peuvent résulter du fait qu'un Des bruits peuvent résulter du fait qu'un

même mot peut avoir plusieurs sens, exemple:même mot peut avoir plusieurs sens, exemple: Nom 1: Nom 1: ccâmilâmil عاملعامل, plur. par suffixation: , plur. par suffixation: ccâmilûn âmilûn

(fem. –ât) = "travailleur", "employé", "salarié"(fem. –ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du Nom 2: -- plur. "interne" (par modification du

patron): patron): ccawâmil awâmil عواملعوامل = "facteur" (de qqch)= "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du Nom 3:-- plur. "interne" (par modification du

patron): patron): ccummâl ummâl عمالعمال = "ouvrier"= "ouvrier" Adjectif: = "actif", "en fonction", "effectif"Adjectif: = "actif", "en fonction", "effectif"

► Requête Requête 12 000 00012 000 000 : : عاملعامل de résultats (0,23 de résultats (0,23 secondes) : le bruit est très élevé, la requête secondes) : le bruit est très élevé, la requête ne pouvant porter que sur un seul sensne pouvant porter que sur un seul sens

Page 19: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

19

Problèmes de polysémie 2Problèmes de polysémie 2► Des bruits peuvent résulter du fait qu'un même mot Des bruits peuvent résulter du fait qu'un même mot

peut avoir plusieurs sens, exemple:peut avoir plusieurs sens, exemple: Nom 1: Nom 1: ccâmilâmil عاملعامل, plur. par suffixation: , plur. par suffixation: ccâmilûn âmilûn (fem. –(fem. –

ât) = "travailleur", "employé", "salarié"ât) = "travailleur", "employé", "salarié"► 74 70074 700 pour pour عاملونعاملون (ss occ. du sing. ni de (ss occ. du sing. ni de عاملوعاملو))► 148 000148 000 pour pour عاملوعاملو (ss occ. du sing)(ss occ. du sing)► 144 000144 000 pour pour عامالتعامالت (ss occ. du sing)(ss occ. du sing)

Nom 2: -- plur. "interne" (par modification du patron): Nom 2: -- plur. "interne" (par modification du patron): ccawâmil awâmil عواملعوامل = "facteur" (de qqch)= "facteur" (de qqch)

► 5 370 000 résultats 5 370 000 résultats (ss occurrence du sing.)(ss occurrence du sing.) Nom 3:-- plur. "interne" (par modification du patron): Nom 3:-- plur. "interne" (par modification du patron):

ccummâl ummâl عمالعمال = "ouvrier"= "ouvrier"► 2 610 000 résultats 2 610 000 résultats (ss occurrence du sing.)(ss occurrence du sing.)

Adjectif: = "actif", "en fonction", "effectif"Adjectif: = "actif", "en fonction", "effectif"

Page 20: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

20

Recours au générateur de Recours au générateur de DIINARDIINAR

► Les lexiques générés à partir de DIINAR Les lexiques générés à partir de DIINAR peuvent permettre – peuvent permettre – au niveau du motau niveau du mot – – de sélectionner une requête pertinente, en de sélectionner une requête pertinente, en passant par le pluriel.passant par le pluriel.

► agent lexical morphologiqueagent lexical morphologique

Page 21: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

21

Base de connaissances de Base de connaissances de cooccurrencescooccurrences

► au niveau des groupes de motsau niveau des groupes de mots, des , des cooccurrences peuvent être repérées, ex.:cooccurrences peuvent être repérées, ex.: ) ( - ) زراعة ) الـ بناء الـ (عامل ( - ) زراعة ) الـ بناء الـ – 'ccâmil (al-)binâ' – âmil (al-)binâ – – عامل

(al-)zirâ(al-)zirâcca a : "ouvrier en bâtiment", "agricole" : "ouvrier en bâtiment", "agricole" (عامالتعامالت منازل ) (الـ منازل ) الـ – – "travailleuses "travailleuses

ménagères"ménagères"

► agent lexical de cooccurrenceagent lexical de cooccurrence

Page 22: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

22

Vers une interface Vers une interface d'interrogation 1d'interrogation 1

►Saisie: Saisie: ccâmilâmil عاملعامل► Consultation des lexiques générés de DIINAR: Consultation des lexiques générés de DIINAR:

L'interface morpho-lexicale demande à L'interface morpho-lexicale demande à l'utilisateur le sens qui l'intéresse: l'utilisateur le sens qui l'intéresse: Nom 1: Nom 1: ccâmilâmil عاملعامل, plur. par suffixation: , plur. par suffixation: ccâmilûn âmilûn (fem. (fem.

–ât) = "travailleur", "employé", "salarié"–ât) = "travailleur", "employé", "salarié" Nom 2: -- plur. "interne" (par modification du patron): Nom 2: -- plur. "interne" (par modification du patron):

ccawâmil awâmil عواملعوامل = "facteur" (de qqch)= "facteur" (de qqch) Nom 3:-- plur. "interne" (par modification du patron): Nom 3:-- plur. "interne" (par modification du patron):

ccummâl ummâl عمالعمال = "ouvrier"= "ouvrier" Adjectif: = "actif", "en fonction", "effectif"Adjectif: = "actif", "en fonction", "effectif"

Page 23: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

23

Vers une interface Vers une interface d'interrogation 2d'interrogation 2

►Saisie: Saisie: ccâmilâmil عاملعامل► Consultation des lexiques de cooccurrence (à Consultation des lexiques de cooccurrence (à

construire!) construire!)

L'interface de cooccurrence lexicale demande L'interface de cooccurrence lexicale demande à l'utilisateur le contexte qui l'intéresse: à l'utilisateur le contexte qui l'intéresse:

) بناء ) الـ (عامل بناء ) الـ "ccâmil (al-)binâ' , âmil (al-)binâ' , "ouvrier en bâtiment""ouvrier en bâtiment عامل

) زراعة ) الـ (عامل زراعة ) الـ "ccâmil (al-)zirââmil (al-)zirâcca,a, "ouvrier agricole" "ouvrier agricole عامل

عضوعضو عاملعامل ccudw udw ccâmilâmil, "membre actif" (, "membre actif" (ccâmil âmil = = adjectif)adjectif)

► En cas de recherche par les pluriels: En cas de recherche par les pluriels: collaboration des deux agents d'aide à la collaboration des deux agents d'aide à la recherche ou à la fouille…recherche ou à la fouille…

Page 24: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

24

Les ressources lexicales Les ressources lexicales nécessairesnécessaires

►Pour le niveau du mot: DIINAR (8 Pour le niveau du mot: DIINAR (8 hommes/années)hommes/années)

►Pour le niveau des collocations: Pour le niveau des collocations: beaucoup de travail à faire, avec une beaucoup de travail à faire, avec une démarche prolongeant la théorie des démarche prolongeant la théorie des spécificateurs implémentée dans spécificateurs implémentée dans DIINAR + un format lexical nouveau DIINAR + un format lexical nouveau (travaux en cours)(travaux en cours)

Page 25: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

25

AnnexeAnnexe : DIINAR.1: DIINAR.1

Page 26: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

26

DIINAR.1DIINAR.1(DIctionnaire INformatisé de l’ARabe – version (DIctionnaire INformatisé de l’ARabe – version

1)1)

en arabe : en arabe : Ma‘âlîMa‘âlî – – معاليمعالي « « Mu‘jam al-‘Arabiyya Mu‘jam al-‘Arabiyya

l-’âlîl-’âlî »  » (( اآللي العربية اآللي معجم العربية ((معجم

►Joseph DichyJoseph Dichy, , Université Lumière-Lyon 2 et Université Lumière-Lyon 2 et groupe de recherche SILAT (ICAR CNRS-Lyon 2)groupe de recherche SILAT (ICAR CNRS-Lyon 2)

►Abdelfattah BrahamAbdelfattah Braham, , Université de la Manouba Université de la Manouba et IRSITet IRSIT

►Salem GhazaliSalem Ghazali, , Institut Supérieur des Langues Institut Supérieur des Langues de Tunis et IRSITde Tunis et IRSIT

►Mohamed HassounMohamed Hassoun, , ENSSIB (Villeurbanne) et ENSSIB (Villeurbanne) et groupe de recherche SILAT (commun à ICAR et groupe de recherche SILAT (commun à ICAR et à ELICO )à ELICO )

Page 27: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

27

La base de connaissances DIINAR.1 La base de connaissances DIINAR.1 comprend comprend

129.000 entrées environ129.000 entrées environ► Entrées verbales : Entrées verbales : 20.000 env.20.000 env.► Entrées déverbales : Entrées déverbales : 79.000 env.79.000 env.► Entrées nominales : Entrées nominales : 29.000 env. (+ env. 10.000 29.000 env. (+ env. 10.000 pluriels pluriels

'brisés''brisés'))► Noms propres : Noms propres : 1.000 env.1.000 env.► Mots-outils : Mots-outils : 200 env.200 env.► ++ l’ensemble complet des enclitiques, proclitiques, l’ensemble complet des enclitiques, proclitiques,

préfixes et suffixes de l’arabepréfixes et suffixes de l’arabe

► lexiques générés: lexiques générés: formes fléchies (mots minimaux): 7,7 Mformes fléchies (mots minimaux): 7,7 M formes développées (mots maximaux): 230 Mformes développées (mots maximaux): 230 M

Page 28: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

28

Les spécificateurs Les spécificateurs morphosyntaxiques morphosyntaxiques inclus dans inclus dans

DIINAR.1DIINAR.1► A chaque unité lexicale sont associés des A chaque unité lexicale sont associés des

spécificateurs morphosyntaxiquesspécificateurs morphosyntaxiques correspon- correspon-dant aux relations grammaire-lexique opérant au dant aux relations grammaire-lexique opérant au niveau du mot (Hassoun, 1987, Dichy, 1990). niveau du mot (Hassoun, 1987, Dichy, 1990).

► Les spécificateurs incluent également les liens Les spécificateurs incluent également les liens dérivationnels entre formes morphologiquement dérivationnels entre formes morphologiquement reliées, telles que:reliées, telles que:

► verbe verbe déverbal ou, pour les noms, singulier déverbal ou, pour les noms, singulier “pluriel “pluriel brisé”, etc.brisé”, etc.

► Les spécificateurs morphosyntaxiques appartien-Les spécificateurs morphosyntaxiques appartien-nent à des inventaires finis et exhaustifs (Dichy, nent à des inventaires finis et exhaustifs (Dichy, 1997)1997)..

Page 29: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

29

Principe de compatibilité Principe de compatibilité connaissances-processusconnaissances-processus

► La base de données DIINAR.1 est soumise à une La base de données DIINAR.1 est soumise à une contrainte méthodologique fondamentale, celle de contrainte méthodologique fondamentale, celle de la compatibilité :la compatibilité :

► (1)(1) avec les deux processus asymétriques de la avec les deux processus asymétriques de la génération et de l’analyse de textes écrits (Dichy génération et de l’analyse de textes écrits (Dichy 1990 et 1993), et 1990 et 1993), et 

► (2)(2) avec les deux réalisations en graphie avec les deux réalisations en graphie vocalisée ou non de l’arabe (Hassoun 1987).vocalisée ou non de l’arabe (Hassoun 1987).

►   On dira que DIINAR.1 est conçu en fonction du On dira que DIINAR.1 est conçu en fonction du principe de compatibilité connaissances-processusprincipe de compatibilité connaissances-processus (Dichy 1997). (Dichy 1997).

Page 30: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

30

Génération ET analyseGénération ET analyse

►traitement exhaustif des donnéestraitement exhaustif des données► lexiques généréslexiques générés

Page 31: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

31

beaucoup de travail fait, et beaucoup de travail fait, et de travail à faire, mais en de travail à faire, mais en recherche d'information…recherche d'information…

►Où sont les grands explorateurs à Où sont les grands explorateurs à qui l'on devra l'oubli d'un qui l'on devra l'oubli d'un continent ?continent ?

► Guillaume ApollinaireGuillaume Apollinaire

Page 32: Génération et analyse de mots arabes (GAMAR) : vers une plateforme denrichissement des requêtes pour la recherche dinformation ou la fouille de textes.

J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

32

Merci de votre attentionMerci de votre attention

إصغاءكم لكم إصغاءكم أشكر لكم أشكر