Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...
-
Upload
come-jamet -
Category
Documents
-
view
104 -
download
0
Transcript of Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...
Ghassan Mourad
Univ. Ain Chams, Caire, Egypte,
17 decembre 2007 et
ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008.
Segmentation et étiquetage des textes par la méthode d’exploration
contextuelle
Plan
• Éléments définitoires
• Problématiques générales
• La méthode d’Exploration Contextuelle
• Exemple de segmentation
• Exemple de filtrage
• Présentation et exemples d’analyse par Sarfiyya
1) La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets;
2) Information Citationnelle : la citation dans son co(n)texte
La citation proprement dite, le cité, et l’introducteur (verbe, préposition, autres marqueurs)
Éléments de définition et corpus
Corpus de repérage assafir
Corpus de validation : al ahram
الرعاش أعربت وقد مرض سعادتها - باركنسون - جمعية عن .بالتقرير
باسمها قالو من إن متحدث يمكن قد العالجي االستنساخباركنسون ا لمرض عالج إلى لتوصل .
La méthode d’exploration contextuelle
L’EC relève de l’analyse sémantique de texte.
Elle permet de prendre en compte des indices contextuels internes au texte pour :
- lever des indéterminations sémantiques
- prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc.
[Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…]
Un système d’EC fait appel à des connaissances exclusivement linguistiques
- indices déclencheurs ou indicateurs
- indices complémentaires
et à un ensemble de règles d’EC
Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)
Chaque règle est de la forme :
SI U (indicateur) est identifié dans un espace de recherche E
et SI l'on constate la présence des indices complémentaires (V1, ..., Vn)&/ou (W1, ..., Wm) avant et/ou après U
ALORS prendre la décision D
Indices gauchesIndices droitsMarqueurs
déclencheurs
Décision
Méthode d’EC
ماذا
فالن قال
questionnement
Indices gauchesIndices droitsMarqueurs
déclencheurs
Décision
Méthode d’EC
ماذا
فالن قال
questionnement
فالن ان قال
DR ou citation
Indices gauchesIndices droitsMarqueurs
déclencheurs
Décision
Méthode d’EC
فالن ان قال
DR ou citation
Principe de base de segmentation
Coordinationف ثّم�, و،
Coordinationف ثّم�, و،
Connecteursهكذا, إذ, لكن, بينما ،...
Connecteursهكذا, إذ, لكن, بينما ،...
Contexte gauche
Contexte gauche
Marqueurs déclencheurs
Contexte droit
Contexte droit
Signes de ponctuation/: / , / !/ ? / \r /.. ؛
Signes de ponctuation../ r\ / ? /! / , / :/ ؛
Règles de segmentation en phrases
Règle de segmentation La virgule
Contexte gauche Marqueur Contexte gauche
verbe espace ,
SI une virgule est suivie d’une espaceET SI l’espace est suivi d’un verbeAlors la virgule marque une fin de phrase
الّصNيف وفيصباح اصباح من عمNه مر, مشرق بابن Nإسماعيل
CG M CD
Verbeمر Espace , وفي .marqصباحTemp.
SI la virgule est suivie par un espaceET Si l’espace est suivi d’un verbeET SI le contexte droit de la virgule commence par un marqueur
temporel صباح , , وفي , , ذات يوم ذات Nام األي من يوم في الّظNهر وحـوالييوم, وذات ,ليلة
ALORS la virgule ne marque pas la fin de la phrase
La segmentation de textes arabesnécessité des connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc.
... , خضـراء يبة Nبالّطـ المـحـيّطة الجـبال كـانت كـثـيرة سـنين قـبل , , من يـهمNهم وال خـشـبا يـريـدون كـانوا Nاس الن Nلكن البساتين مثـل
أيـن.
• Texte source
• Texte segmenté
<a>..., كثيرة سنين خضراء قبل بالّط�يبة المحيّطة الجبال كانت, البساتين < a>/مثل
< a> خشبا يريدون الن�اسكانوا < a>/,لكن�<a>. أين من يهم�هّم <a>/ وال
Règles de segmentation La virgule
Exemple d’application:
Filtrage de citations
Par des règles d’exploration contextuelle,
Mais exprimée par des automates selon Sarfiyya
SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique)et
SI l'on constate la présence des indices complémentaires inna après U qâla
ALORS le segment textuel E est une inf. Cit
Par de règle d’exploration contextuelle
qâla mot* inna (a-dit mot* que)
Identification sous forme d’expression régulière ou automate
&ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna
Le filtrage d’autres notions sémantiques
Exemple d’annonces thématiques
min el ….. anna, « Il est ….. que »,
Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna…
Ex : Il est ( possible + probable + sûr + …..) que…
Il est nécessaire d’avoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources :
Marqueurs déclencheurs ou indicateurs, Indices complémentairesRègles d’EC;
L’EC permet le parcours du texte selon le contexte, en d’autres termes, il est facile de voir le contexte gauche et droit ;
Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ;
Le retour vers le contexte droit après l’identification de marqueurs déclencheurs n’est pas, à ma connaissance, très évident ;
Il est important de trouver une solution d’analyse et de parcours …
Conclusion
LinguistiqueInformatique
Linguistique Informatique
Observation, description, théorisation, …
Dans la LI se déploient le caractère théorique de la linguistique et l’effectivité de l’informatique
Effectivité
«Pensée informatique»
La linguistique informatique comme discipline…
Connaissances « intuitives » sur une notion donnée
Formalisation opératoire
Informatisationopérationnelle
Observables
Expérimentation, validation
Expression réelle de la notion dans les textes
Observation réelle
Faire de la Linguistique informatique
Problématiques générales dans le cadre
de la LI (mais aussi en TAL)Texte(s) ---- --- -- -- -- ---- ---- -- -- ----- -- - - --- -- --- -- - -- - -- --- ----
-- -- - --- - ---- - -- --- -- ---- - --
Un segment de texte précis
-- -- --- ------ -- - -- --- - -- -
analyser
générer
annoter
…
Frontières Identification Et portée
Analyser, traiter, extrairePour …
------- --------- ------ ----- ----------- - --------
------ ----- ------- - ----- ---- ----- ----------- - -----
---- ----- ----------- - -------- ----- ----- ----------- - ------ ----- ----- ----------- - --------
------- ---- ----- ----------- - -------- ------- ----- --------- - -------- ------- ----- -------- - -------- -
-------- - ------------- ------
<t>------- --------- </t><s><p><a>------ </a><a>-----</a>
----- ----- - -- - ---------- ----- ----- ------ ------</a><p>
<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li><p>---- ----- ----------- - -------- ------- ----- ----------- - -------- -
<t2>--------</t2> ------- -- --- -- -- ---- ------- </p>
<p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- -
------ ----- ---- - -------- -</a></p></s>
Texte Texte balisé (segmenté/structuré)
1e Problématique : passer d’un texte non segmenté à un texte segmenté (balisé), selon des règles de segmentation
<t>------- --------- </t><s><p><a>------ </a><a>-----</a>
----- ----- - -- - ---------- ----- ----- ------ ------</a><p>
<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li><p>---- ----- ----------- - -------- ------- ----- ----------- - -------- -
<t2>--------</t2> ------- -- --- -- -- ---- ------- </p>
<p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- -
------ ----- ---- - -------- -</a></p></s>
Texte segmenté structuré
Texte étiqueté par des notions sémantiques et discursives
2e Problématique, annoter le texte par des balises… XML ou autre, selon les marques linguistiques
<t>------- --------- </t><s><p><a> >AT<------ >/AT<
</a><a>-----</a> >INT<-- ---->/INT< - >CIT< ----- ------ >/CIT< ------</a><p>
<li> ------ ----- ------- - ----- </li><li> --- ----- ----------- - -----</li>
<p>---- ----- ----------- - --- ------- ----- - - -------- -
<t2>--------</t2> >CON<------- -- - >/CON< ------- </p>
<p><a>------ -----</a> <a>----------- ---- ----- ---- --- -------- -
------ - -------- -</a></p></s>
Nécessite des modules de pré-traitement de textes, ou des modules de segmentations
La réalisation demande
une étude systématique des signes typographiquespour trouver une certaine régularité d’utilisation,& l’étude de contextes de certains connecteurs (Ar)
1a Problématique
Définir les frontières – formelles - des segments à traiter
Nécessite une étude systématique de textedonc
•de ses composants linguistiques- par une étude et fouille sémantique
•des ses composants typographiques- par une étude sémantique de la ponctuation,de l’architecture de texte et de la disposition spatiale de certains segments
2e Problématique
L’identification et le filtrage de certains segments textuelsEx. la citation