Etat d'avancement 2016
-
Upload
abdelkrime-aries -
Category
Technology
-
view
165 -
download
0
Transcript of Etat d'avancement 2016
Vers une améliorationdes résumés automatiques de textes
ARIES AbdelkrimeEncadré par: Pr. ZEGOUR Djamal Eddine
Co-encadré par: Pr. HIDOUCI Khaled Walid
École nationale Supérieure d’Informatique (ESI, ex. INI), AlgérieEcole doctorale STIC (2010/2011)
Laboratoire LCSI - Groupe D3Année d’inscription en doctorat: (2013/2014)
État d’avancement troisième année: 2015/2016
Thématique
Intelligence Artificielle
Traitement de langages naturels
Résumé automatique de textes
AbstractifExtractif
+ Facile à concevoir+ Rapide+ Multilingue Lisibilité Cohérence
Déficile à concevoir Lent Lang. Specifique+ Lisibilité+ Cohérence
2/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Sujet
Notre but est Une méthode/système de résumé :
Multilingue (et pourquoi pas cross-lingue)
Génère des résumés lisibles et cohérents
Compression élevée de données
Donc,
Un système de résumé extractif, pour avoir les phrases importantes
Représenter la connaissance extraite de ces phrases
Utiliser les termes importants (extraits par le résumé extractif) pourgénérer une représentation condensée
Générer le texte en utilisant un générateur de texte
3/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Échéancier initial
1 État de l’art (12 mois).2 Proposition d’une amélioration de résumé automatique et préparation
d’un premier article ou communication (12 mois).3 Validation de la solution et préparation d’un premier article ou
communication (16 mois).4 Rédaction de la thèse (8 mois).
4/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
État de l’art
Recherches récents dans le résumé automatique abstractif :
[Gerani et al., 2014] : Structure du discours.
[Banerjee et al., 2015] : La compression de phrases.
[Liu et al., 2015] : Les représentations sémantiques (graphes AMR).
[Rush et al., 2015] : Apprentissage automatique (réseaux deneurones).
5/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
État d’avancement dans la contribution
Moteur de représentation de de raisonnement
Ar Fr JaEn
Analyseur Universel
Ar FrEn Ja
Language intermédiaireGénérateur Analyseur
Représentation de connaissance
Résumeur de connaissance
Ar Fr JaEn
GénérateurUniversel de langue
Ar FrEn Ja
Langage intermédiaire (STON) : fini, avec des améliorations potentielles
Générateur de texte : En Anglais, pas mal mais il faut ajouter plusieursaméliorations. En français, il est catastrophique (dans le sens négatif)
L’analyseur : primitif ; pour l’instant il faut annoter manuellement
Moteur de raisonnement : des représentations simples, pour l’instant ilgénère des informations concernant un objet donnée
En résumé : retard d’une année (voir plus) par rapport à l’échéancier initial.6/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Plateformes de réalisation
Allsummarizer : résumé abstractif
SentRep : représentation des phrases (STON pour l’instant)
NaLanPar : Analyseur des phrases, sert à les représenter sur uneautre format (STON)
NaLanGen : Réalisateur de phrases à partir d’une représentation(STON)
Faris : “Factual arrangement and representation of ideas insentences" moteur de raisonnement qui va servir comme notresystème de résumé abstractif
Tous ces outils sont programmés en Java et sous la licence Apache 2.0.Pour consulter le code :https://github.com/kariminf?tab=repositories&type=source
7/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Tests
Teste de langage : Annoter des textes en STON, pour prouver que lelangage peut représenter des phrases prises de textes réels. 45phrases, avec 29-30 mots/ phrase. 30mn - 1h pour annoter unephrase.
Vitesse d’analyse de STON : 5ms à 8ms par phrase.
Génération des phrases :
Table : Exemple d’un texte généré à partir de la représentation STON.
Source Born in Cairo in 1911, Naguib Mahfouz began writing when he was seventeen. His first novel was publishedin 1939 and ten more were written before the Egyptian Revolution of July 1952, when he stopped writing forseveral years.
English genera-ted text
Naguib Mahfouz which was given birth in Cairo in 1911 began writing when he was 17 years. First, his novelwas published in 1939 and 10, more novels were written before the revolution of Egyptians of July 1952 inwhich he discontinued writing for several years.
French generatedtext
Naguib Mahfouz que a été accouché à un Le Caire à 1911 a débuté un œuvre quand lui a été de 17 années.Son premier nouveau a été publié à 1939 et de 10 nouveaux plus ont été écrits avant le tour de des égyptiensde July 1952 à lequel lui a cessé un œuvre pour des années es.
8/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Production scientifique (depuis l’inscription en thèse)
Acceptées :
Conf. “SIGDIAL". AllSummarizer system at MultiLing 2015 :Multilingual single and multi-document summarization. 2-4 Septembre2015.
En cours :
Jour. “Computer speech and language", Elsevier. Sentence ObjectNotation : Interlingual sentence notation based on Wordnet. Dated’envoi : 08 Août 2016.
Rejetées :
Jour. “Language Resources and Evaluation (LREV)", Springer.Sentence Object Notation : Interlingual sentence notation based onWordnet. Date d’envoi : . Date de rejet : 6 Juin 2016.
9/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Travaux de la prochaine année
Rédiger un “survey" et l’envoyer vers un journal. Ce survey peut seservir comme état de l’art après.
Implémenter le moteur de raisonnement dédié pour le résuméabstractive : une version préliminaire pour prouver l’idée.
Annoter manuellement le corpus de teste “MultiLing2015 - MMS task"pour tester le système.
Rédiger un ou deux articles concernant le résumé abstractive. Ici, onn’a pas décidé si on fait un seul article ou deux : un pour lareprésentation de connaissance et un autre pour son utilisation dansle résumé abstractive.
10/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes
Bibliography I
Banerjee, S., Mitra, P., and Sugiyama, K. (2015).Multi-document abstractive summarization using ilp based multi-sentence compression.In Proceedings of the 24th International Conference on Artificial Intelligence, pages 1208–1214. AAAI Press.
Gerani, S., Mehdad, Y., Carenini, G., Ng, R. T., and Nejat, B. (2014).Abstractive summarization of product reviews using discourse structure.In EMNLP, pages 1602–1613.
Liu, F., Flanigan, J., Thomson, S., Sadeh, N., and Smith, N. A. (2015).Toward abstractive summarization using semantic representations.
Rush, M. A., Chopra, S., and Weston, J. (2015).A neural attention model for abstractive sentence summarization.In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 379–389. Association forComputational Linguistics.
11/11 ESI - ARIES Abdelkrime (Octobre 2016) Vers une amélioration des résumés automatiques de textes