Etat d'avancement 2016

11
Vers une amélioration des résumés automatiques de textes ARIES Abdelkrime Encadré par: Pr. ZEGOUR Djamal Eddine Co-encadré par: Pr. HIDOUCI Khaled Walid École nationale Supérieure d’Informatique (ESI, ex. INI), Algérie Ecole doctorale STIC (2010/2011) Laboratoire LCSI - Groupe D3 Année d’inscription en doctorat: (2013/2014) État d’avancement troisième année: 2015/2016

Transcript of Etat d'avancement 2016

Page 1: Etat d'avancement 2016

Vers une améliorationdes résumés automatiques de textes

ARIES AbdelkrimeEncadré par: Pr. ZEGOUR Djamal Eddine

Co-encadré par: Pr. HIDOUCI Khaled Walid

École nationale Supérieure d’Informatique (ESI, ex. INI), AlgérieEcole doctorale STIC (2010/2011)

Laboratoire LCSI - Groupe D3Année d’inscription en doctorat: (2013/2014)

État d’avancement troisième année: 2015/2016

Page 2: Etat d'avancement 2016

Thématique

Intelligence Artificielle

Traitement de langages naturels

Résumé automatique de textes

AbstractifExtractif

+ Facile à concevoir+ Rapide+ Multilingue­  Lisibilité­ Cohérence

­ Déficile à concevoir­ Lent­  Lang. Specifique+ Lisibilité+ Cohérence 

2/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 3: Etat d'avancement 2016

Sujet

Notre but est Une méthode/système de résumé :

Multilingue (et pourquoi pas cross-lingue)

Génère des résumés lisibles et cohérents

Compression élevée de données

Donc,

Un système de résumé extractif, pour avoir les phrases importantes

Représenter la connaissance extraite de ces phrases

Utiliser les termes importants (extraits par le résumé extractif) pourgénérer une représentation condensée

Générer le texte en utilisant un générateur de texte

3/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 4: Etat d'avancement 2016

Échéancier initial

1 État de l’art (12 mois).2 Proposition d’une amélioration de résumé automatique et préparation

d’un premier article ou communication (12 mois).3 Validation de la solution et préparation d’un premier article ou

communication (16 mois).4 Rédaction de la thèse (8 mois).

4/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 5: Etat d'avancement 2016

État de l’art

Recherches récents dans le résumé automatique abstractif :

[Gerani et al., 2014] : Structure du discours.

[Banerjee et al., 2015] : La compression de phrases.

[Liu et al., 2015] : Les représentations sémantiques (graphes AMR).

[Rush et al., 2015] : Apprentissage automatique (réseaux deneurones).

5/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 6: Etat d'avancement 2016

État d’avancement dans la contribution

Moteur de représentation de de raisonnement

Ar Fr JaEn

Analyseur Universel

Ar FrEn Ja

Language intermédiaireGénérateur Analyseur

Représentation de connaissance

Résumeur de connaissance

Ar Fr JaEn

GénérateurUniversel de langue

Ar FrEn Ja

Langage intermédiaire (STON) : fini, avec des améliorations potentielles

Générateur de texte : En Anglais, pas mal mais il faut ajouter plusieursaméliorations. En français, il est catastrophique (dans le sens négatif)

L’analyseur : primitif ; pour l’instant il faut annoter manuellement

Moteur de raisonnement : des représentations simples, pour l’instant ilgénère des informations concernant un objet donnée

En résumé : retard d’une année (voir plus) par rapport à l’échéancier initial.6/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 7: Etat d'avancement 2016

Plateformes de réalisation

Allsummarizer : résumé abstractif

SentRep : représentation des phrases (STON pour l’instant)

NaLanPar : Analyseur des phrases, sert à les représenter sur uneautre format (STON)

NaLanGen : Réalisateur de phrases à partir d’une représentation(STON)

Faris : “Factual arrangement and representation of ideas insentences" moteur de raisonnement qui va servir comme notresystème de résumé abstractif

Tous ces outils sont programmés en Java et sous la licence Apache 2.0.Pour consulter le code :https://github.com/kariminf?tab=repositories&type=source

7/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 8: Etat d'avancement 2016

Tests

Teste de langage : Annoter des textes en STON, pour prouver que lelangage peut représenter des phrases prises de textes réels. 45phrases, avec 29-30 mots/ phrase. 30mn - 1h pour annoter unephrase.

Vitesse d’analyse de STON : 5ms à 8ms par phrase.

Génération des phrases :

Table : Exemple d’un texte généré à partir de la représentation STON.

Source Born in Cairo in 1911, Naguib Mahfouz began writing when he was seventeen. His first novel was publishedin 1939 and ten more were written before the Egyptian Revolution of July 1952, when he stopped writing forseveral years.

English genera-ted text

Naguib Mahfouz which was given birth in Cairo in 1911 began writing when he was 17 years. First, his novelwas published in 1939 and 10, more novels were written before the revolution of Egyptians of July 1952 inwhich he discontinued writing for several years.

French generatedtext

Naguib Mahfouz que a été accouché à un Le Caire à 1911 a débuté un œuvre quand lui a été de 17 années.Son premier nouveau a été publié à 1939 et de 10 nouveaux plus ont été écrits avant le tour de des égyptiensde July 1952 à lequel lui a cessé un œuvre pour des années es.

8/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 9: Etat d'avancement 2016

Production scientifique (depuis l’inscription en thèse)

Acceptées :

Conf. “SIGDIAL". AllSummarizer system at MultiLing 2015 :Multilingual single and multi-document summarization. 2-4 Septembre2015.

En cours :

Jour. “Computer speech and language", Elsevier. Sentence ObjectNotation : Interlingual sentence notation based on Wordnet. Dated’envoi : 08 Août 2016.

Rejetées :

Jour. “Language Resources and Evaluation (LREV)", Springer.Sentence Object Notation : Interlingual sentence notation based onWordnet. Date d’envoi : . Date de rejet : 6 Juin 2016.

9/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 10: Etat d'avancement 2016

Travaux de la prochaine année

Rédiger un “survey" et l’envoyer vers un journal. Ce survey peut seservir comme état de l’art après.

Implémenter le moteur de raisonnement dédié pour le résuméabstractive : une version préliminaire pour prouver l’idée.

Annoter manuellement le corpus de teste “MultiLing2015 - MMS task"pour tester le système.

Rédiger un ou deux articles concernant le résumé abstractive. Ici, onn’a pas décidé si on fait un seul article ou deux : un pour lareprésentation de connaissance et un autre pour son utilisation dansle résumé abstractive.

10/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes

Page 11: Etat d'avancement 2016

Bibliography I

Banerjee, S., Mitra, P., and Sugiyama, K. (2015).Multi-document abstractive summarization using ilp based multi-sentence compression.In Proceedings of the 24th International Conference on Artificial Intelligence, pages 1208–1214. AAAI Press.

Gerani, S., Mehdad, Y., Carenini, G., Ng, R. T., and Nejat, B. (2014).Abstractive summarization of product reviews using discourse structure.In EMNLP, pages 1602–1613.

Liu, F., Flanigan, J., Thomson, S., Sadeh, N., and Smith, N. A. (2015).Toward abstractive summarization using semantic representations.

Rush, M. A., Chopra, S., and Weston, J. (2015).A neural attention model for abstractive sentence summarization.In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 379–389. Association forComputational Linguistics.

11/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes