Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...

27
Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage des textes par la méthode d’exploration contextuelle

Transcript of Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...

Page 1: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Ghassan Mourad

Univ. Ain Chams, Caire, Egypte,

17 decembre 2007 et

ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008.

Segmentation et étiquetage des textes par la méthode d’exploration

contextuelle

Page 2: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Plan

• Éléments définitoires

• Problématiques générales

• La méthode d’Exploration Contextuelle

• Exemple de segmentation

• Exemple de filtrage

• Présentation et exemples d’analyse par Sarfiyya

Page 3: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

1) La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets;

2) Information Citationnelle : la citation dans son co(n)texte

La citation proprement dite, le cité, et l’introducteur (verbe, préposition, autres marqueurs)

Éléments de définition et corpus

Corpus de repérage assafir

Corpus de validation : al ahram

الرعاش أعربت وقد مرض سعادتها - باركنسون - جمعية عن .بالتقرير

باسمها قالو من إن متحدث يمكن قد العالجي االستنساخباركنسون ا لمرض عالج إلى لتوصل .

Page 4: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

La méthode d’exploration contextuelle

L’EC relève de l’analyse sémantique de texte.

Elle permet de prendre en compte des indices contextuels internes au texte pour :

- lever des indéterminations sémantiques

- prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc.

[Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…]

Un système d’EC fait appel à des connaissances exclusivement linguistiques

- indices déclencheurs ou indicateurs

- indices complémentaires

et à un ensemble de règles d’EC

Page 5: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)

Page 6: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Chaque règle est de la forme :

SI U (indicateur) est identifié dans un espace de recherche E

et SI l'on constate la présence des indices complémentaires (V1, ..., Vn)&/ou (W1, ..., Wm) avant et/ou après U

ALORS prendre la décision D

Page 7: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Indices gauchesIndices droitsMarqueurs

déclencheurs

Décision

Méthode d’EC

Page 8: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

ماذا

فالن قال

questionnement

Page 9: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Indices gauchesIndices droitsMarqueurs

déclencheurs

Décision

Méthode d’EC

ماذا

فالن قال

questionnement

Page 10: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

فالن ان قال

DR ou citation

Page 11: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Indices gauchesIndices droitsMarqueurs

déclencheurs

Décision

Méthode d’EC

فالن ان قال

DR ou citation

Page 12: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Principe de base de segmentation

Coordinationف ثّم�, و،

Coordinationف ثّم�, و،

Connecteursهكذا, إذ, لكن, بينما ،...

Connecteursهكذا, إذ, لكن, بينما ،...

Contexte gauche

Contexte gauche

Marqueurs déclencheurs

Contexte droit

Contexte droit

Signes de ponctuation/: / , / !/ ? / \r /.. ؛

Signes de ponctuation../ r\ / ? /! / , / :/ ؛

Règles de segmentation en phrases

Page 13: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Règle de segmentation La virgule

Contexte gauche Marqueur Contexte gauche

verbe espace ,

SI une virgule est suivie d’une espaceET SI l’espace est suivi d’un verbeAlors la virgule marque une fin de phrase

Page 14: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

الّصNيف وفيصباح اصباح من عمNه مر, مشرق بابن Nإسماعيل

CG M CD

  Verbeمر Espace ,     وفي .marqصباحTemp.

SI la virgule est suivie par un espaceET Si l’espace est suivi d’un verbeET SI le contexte droit de la virgule commence par un marqueur

temporel صباح , , وفي , , ذات يوم ذات Nام األي من يوم في الّظNهر وحـوالييوم, وذات ,ليلة

ALORS la virgule ne marque pas la fin de la phrase

La segmentation de textes arabesnécessité des  connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc.

Page 15: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

... , خضـراء يبة Nبالّطـ المـحـيّطة الجـبال كـانت كـثـيرة سـنين قـبل , , من يـهمNهم وال خـشـبا يـريـدون كـانوا Nاس الن Nلكن البساتين مثـل

أيـن.

• Texte source

• Texte segmenté

<a>..., كثيرة سنين خضراء قبل بالّط�يبة المحيّطة الجبال كانت, البساتين  < a>/مثل

< a> خشبا يريدون الن�اسكانوا < a>/,لكن�<a>. أين من يهم�هّم <a>/ وال

Règles de segmentation La virgule

Exemple d’application:

Page 16: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Filtrage de citations

Par des règles d’exploration contextuelle,

Mais exprimée par des automates selon Sarfiyya

Page 17: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique)et

SI l'on constate la présence des indices complémentaires inna après U qâla

ALORS le segment textuel E est une inf. Cit

Par de règle d’exploration contextuelle

Page 18: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

qâla mot* inna (a-dit mot* que)

Identification sous forme d’expression régulière ou automate

&ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna

Page 19: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Le filtrage d’autres notions sémantiques

Exemple d’annonces thématiques

min el ….. anna, « Il est ….. que »,

Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna…

Ex : Il est ( possible + probable + sûr + …..) que…

Page 20: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Il est nécessaire d’avoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources :

Marqueurs déclencheurs ou indicateurs, Indices complémentairesRègles d’EC;

L’EC permet le parcours du texte selon le contexte, en d’autres termes, il est facile de voir le contexte gauche et droit ;

Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ;

Le retour vers le contexte droit après l’identification de marqueurs déclencheurs n’est pas, à ma connaissance, très évident ;

Il est important de trouver une solution d’analyse et de parcours …

Conclusion

Page 21: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

LinguistiqueInformatique

Linguistique Informatique

Observation, description, théorisation, …

Dans la LI se déploient le caractère théorique de la linguistique et l’effectivité de l’informatique

Effectivité

«Pensée informatique»

La linguistique informatique comme discipline…

Page 22: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

 Connaissances « intuitives » sur une notion donnée

Formalisation opératoire

Informatisationopérationnelle

Observables

Expérimentation, validation

Expression réelle de la notion dans les textes

Observation réelle

Faire de la Linguistique informatique

Page 23: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Problématiques générales dans le cadre

de la LI (mais aussi en TAL)Texte(s) ---- --- -- -- -- ---- ---- -- -- ----- -- - - --- -- --- -- - -- - -- --- ----

-- -- - --- - ---- - -- --- -- ---- - --

Un segment de texte précis

-- -- --- ------ -- - -- --- - -- -

analyser

générer

annoter

Frontières Identification Et portée

Analyser, traiter, extrairePour …

Page 24: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

------- --------- ------ ----- ----------- - --------

------ ----- ------- - ----- ---- ----- ----------- - -----

---- ----- ----------- - -------- ----- ----- ----------- - ------ ----- ----- ----------- - --------

------- ---- ----- ----------- - -------- ------- ----- --------- - -------- ------- ----- -------- - -------- -

-------- - ------------- ------

<t>------- --------- </t><s><p><a>------ </a><a>-----</a>

----- ----- - -- - ---------- ----- ----- ------ ------</a><p>

<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li><p>---- ----- ----------- - -------- ------- ----- ----------- - -------- -

<t2>--------</t2> ------- -- --- -- -- ---- ------- </p>

<p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- -

------ ----- ---- - -------- -</a></p></s>

Texte Texte balisé (segmenté/structuré)

1e Problématique : passer d’un texte non segmenté à un texte segmenté (balisé), selon des règles de segmentation

Page 25: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

<t>------- --------- </t><s><p><a>------ </a><a>-----</a>

----- ----- - -- - ---------- ----- ----- ------ ------</a><p>

<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li><p>---- ----- ----------- - -------- ------- ----- ----------- - -------- -

<t2>--------</t2> ------- -- --- -- -- ---- ------- </p>

<p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- -

------ ----- ---- - -------- -</a></p></s>

Texte segmenté structuré

Texte étiqueté par des notions sémantiques et discursives

2e Problématique, annoter le texte par des balises… XML ou autre, selon les marques linguistiques

<t>------- --------- </t><s><p><a> >AT<------ >/AT<

</a><a>-----</a> >INT<-- ---->/INT< - >CIT< ----- ------ >/CIT< ------</a><p>

<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li>

<p>---- ----- ----------- - --- ------- ----- - - -------- -

<t2>--------</t2> >CON<------- -- - >/CON< ------- </p>

<p><a>------ -----</a> <a>----------- ---- ----- ---- --- -------- -

------ - -------- -</a></p></s>

Page 26: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Nécessite des modules de pré-traitement de textes, ou des modules de segmentations

La réalisation demande

une étude systématique des signes typographiquespour trouver une certaine régularité d’utilisation,& l’étude de contextes de certains connecteurs (Ar)

1a Problématique

Définir les frontières – formelles - des segments à traiter

Page 27: Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

Nécessite une étude systématique de textedonc

•de ses composants linguistiques- par une étude et fouille sémantique

•des ses composants typographiques- par une étude sémantique de la ponctuation,de l’architecture de texte et de la disposition spatiale de certains segments

2e Problématique

L’identification et le filtrage de certains segments textuelsEx. la citation