Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...

download Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et étiquetage.

of 27

  • date post

    03-Apr-2015
  • Category

    Documents

  • view

    102
  • download

    0

Embed Size (px)

Transcript of Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS),...

  • Page 1
  • Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Segmentation et tiquetage des textes par la mthode dexploration contextuelle
  • Page 2
  • Plan lments dfinitoires Problmatiques gnrales La mthode dExploration Contextuelle Exemple de segmentation Exemple de filtrage Prsentation et exemples danalyse par Sarfiyya
  • Page 3
  • 1)La citation : terme gnrique ; tout fragment textuel rapport, crit ou prononc, avec ou sans guillemets; 2) Information Citationnelle : la citation dans son co(n)texte La citation proprement dite, le cit, et lintroducteur (verbe, prposition, autres marqueurs) lments de dfinition et corpus Corpus de reprage assafir Corpus de validation : al ahram - - . .
  • Page 4
  • La mthode dexploration contextuelle LEC relve de lanalyse smantique de texte. Elle permet de prendre en compte des indices contextuels internes au texte pour : - lever des indterminations smantiques - prendre certaines dcisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc. [Descls & al. 91, Descls 93, 97, Jouis 93, Berri 96] Un systme dEC fait appel des connaissances exclusivement linguistiques - indices dclencheurs ou indicateurs - indices complmentaires et un ensemble de rgles dEC
  • Page 5
  • Contexte interne, ou contexte indpendant du domaine (J.-P. Descls)
  • Page 6
  • Chaque rgle est de la forme : SI U (indicateur) est identifi dans un espace de recherche E et SI l'on constate la prsence des indices complmentaires (V1,..., Vn)&/ou (W1,..., Wm) avant et/ou aprs U ALORS prendre la dcision D
  • Page 7
  • Indices gauches Indices droits Marqueurs dclencheurs Dcision Mthode dEC
  • Page 8
  • questionnement
  • Page 9
  • Indices gauches Indices droits Marqueurs dclencheurs Dcision Mthode dEC questionnement
  • Page 10
  • DR ou citation
  • Page 11
  • Indices gauches Indices droits Marqueurs dclencheurs Dcision Mthode dEC DR ou citation
  • Page 12
  • Principe de base de segmentation Coordination , Coordination , Connecteurs , , , ... Connecteurs , , , ... Contexte gauche Marqueurs dclencheurs Contexte droit Signes de ponctuation /: /, / !/ ? / \r /.. Signes de ponctuation /: /, / !/ ? / \r /.. Rgles de segmentation en phrases
  • Page 13
  • Rgle de segmentation La virgule Contexte gaucheMarqueurContexte gauche verbeespace, SI une virgule est suivie dune espace ET SI lespace est suivi dun verbe Alors la virgule marque une fin de phrase
  • Page 14
  • , CGMCD Verbe Espace, marq. Temp. SI la virgule est suivie par un espace ET Si lespace est suivi dun verbe ET SI le contexte droit de la virgule commence par un marqueur temporel , , , , , , ALORS la virgule ne marque pas la fin de la phrase La segmentation de textes arabes ncessit des connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc.
  • Page 15
  • ... , , , . Texte source Texte segment... , , , . Rgles de segmentation La virgule Exemple dapplication:
  • Page 16
  • Filtrage de citations Par des rgles dexploration contextuelle, Mais exprime par des automates selon Sarfiyya
  • Page 17
  • SI la classe de verbe de dire qla (U : indicateur) est identifie dans un espace de recherche E (segment textuel = Phrase graphique) et SI l'on constate la prsence des indices complmentaires inna aprs U qla ALORS le segment textuel E est une inf. Cit Par de rgle dexploration contextuelle
  • Page 18
  • qla mot* inna (a-dit mot* que) Identification sous forme dexpression rgulire ou automate &ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna
  • Page 19
  • Le filtrage dautres notions smantiques Exemple dannonces thmatiques min el .. anna, Il est .. que , Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna Ex : Il est ( possible + probable + sr + ..) que
  • Page 20
  • Il est ncessaire davoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources : Marqueurs dclencheurs ou indicateurs, Indices complmentaires Rgles dEC; LEC permet le parcours du texte selon le contexte, en dautres termes, il est facile de voir le contexte gauche et droit ; Les schmas prtablis parcourent souvent dans un seul sens ; la vision et la modlisation linguistique ne sont pas trs visibles ; Le retour vers le contexte droit aprs lidentification de marqueurs dclencheurs nest pas, ma connaissance, trs vident ; Il est important de trouver une solution danalyse et de parcours Conclusion
  • Page 21
  • Linguistique Informatique Linguistique Informatique Observation, description, thorisation, Dans la LI se dploient le caractre thorique de la linguistique et leffectivit de linformatique Effectivit Pense informatique La linguistique informatique comme discipline
  • Page 22
  • Connaissances intuitives sur une notion donne Formalisatio n opratoire Informatisatio n oprationnelle Observable s Exprimentation, validation Expression relle de la notion dans les textes Observation relle Faire de la Linguistique informatique
  • Page 23
  • Problmatiques gnrales dans le cadre de la LI (mais aussi en TAL) Texte(s) ---- --- -- -- -- ---- ---- -- -- ----- -- - - --- -- --- -- - -- - -- --- ---- -- -- - --- - ---- - -- --- -- ---- - -- Un segment de texte prcis -- -- --- --- --- -- - -- --- - -- - analyser gnrer annoter Frontires Identification Et porte Analyser, traiter, extraire Pour
  • Page 24
  • ------- --------- ------ ----- ----------- - -------- ------ ----- ------- - ----- - ---- ----- ----------- - -------- - ---- ----- ----------- - ------ - ---- ----- ----------- - -------- ------- ---- ----- ----------- - -------- - ------ ----- -------- - -------- - -------- - ------------- ------ ------- --------- ------ ----- ----- ----- - -- - ---------- ----- ----- ------ ------ ------ ----- ------- - ----- --- ----- ----------- - ----- ---- ----- ----------- - -------- - ------ ----- ----------- - -------- - -------- ------- -- --- -- -- ---- ------- ------ ----- ----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- - TexteTexte balis (segment/structur) 1e Problmatique : passer dun texte non segment un texte segment (balis), selon des rgles de segmentation
  • Page 25
  • ------- --------- ------ ----- ----- ----- - -- - ---------- ----- ----- ------ ------ ------ ----- ------- - ----- --- ----- ----------- - ----- ---- ----- ----------- - -------- - ------ ----- ----------- - -------- - -------- ------- -- --- -- -- ---- ------- ------ ----- ----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- - Texte segment structur Texte tiquet par des notions smantiques et discursives 2e Problmatique, annoter le texte par des balises XML ou autre, selon les marques linguistiques ------- --------- ------ ----- -- ---- - ----- ------ ------ ------ ----- ------- - ----- --- ----- ----------- - ----- ------ ----- - - -------- - -------- ------- -- - ------- ------ ----- ----------- ---- ----- ---- --- -------- - ------ - -------- -
  • Page 26
  • Ncessite des modules de pr-traitement de textes, ou des modules de segmentations La ralisation demande une tude systmatique des signes typographiques pour trouver une certaine rgularit dutilisation, & ltude de contextes de certains connecteurs (Ar) 1a Problmatique Dfinir les frontires formelles - des segments traiter
  • Page 27
  • Ncessite une tude systmatique de texte donc de ses composants linguistiques - par une tude et fouille smantique des ses composants typographiques - par une tude smantique de la ponctuation, de larchitecture de texte et de la disposition spatiale de certains segments 2e Problmatique Lidentification et le filtrage de certains segments textuels Ex. la citation