Etat d'avancement 2014/2015

25
Vers une amélioration des résumés automatiques de textes ARIES Abdelkrime Encadré par: Pr. ZEGOUR Djamal Eddine Co-encadré par: Pr. HIDOUCI Khaled Walid École nationale Supérieure d’Informatique (ESI, ex. INI), Algérie État d’avancement deuxième année: 2014/2015

Transcript of Etat d'avancement 2014/2015

Page 1: Etat d'avancement 2014/2015

Vers une améliorationdes résumés automatiques de textes

ARIES AbdelkrimeEncadré par: Pr. ZEGOUR Djamal Eddine

Co-encadré par: Pr. HIDOUCI Khaled Walid

École nationale Supérieure d’Informatique (ESI, ex. INI), Algérie

État d’avancement deuxième année: 2014/2015

Page 2: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Plan

1 Problématique

2 Notre système (All Summarizer)

3 Nos contributions

4 Conclusion et perspectives

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 2/25

Page 3: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

IntroductionDescription du problématique

Problématique

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 3/25

Page 4: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

IntroductionDescription du problématique

Motivation

Augmentation du contenu dans le web,

Plusieurs sources et langues

Utilisation de résumé automatique

Workshop pour le résumé automatique (ex. workshop "MultiLing" )

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 4/25

Page 5: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

IntroductionDescription du problématique

Problématique

Les méthodes extractives résultent des résumés non cohérents

Les méthodes abstractives consomment beaucoup de ressources

L’utilisation de l’apprentissage entraîne la dépendance du système aulangue et genre du corpus.

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 5/25

Page 6: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

IntroductionDescription du problématique

Objectifs

Créer une méthode complètement multilingue.

Améliorer la solution proposée dans [1].

Minimiser les problèmes de lisibilité et de cohérence pour le résumérésultant.

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 6/25

Page 7: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

Notre système (All Summarizer)

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 7/25

Page 8: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

Notre système (All Summarizer)Architecture générale

Inputdocument(s)

Summary

Pre-processing

Normalizer

Segmenter

Stemmer

Stop-wordeliminator

Listof sentences

List ofpre-processedwords foreach sentence

Processing

Clustering

Learning

Scoring

Listof clusters

Summary size

P(f|C)

Extraction

ExtractionSentencesscores

ReOrdering

List of firsthigher scoredsentences

Reorderedsentences

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 8/25

Page 9: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

Prétraitement

Tâche Outils Langues

Segmentationdes phrases

openNLP Nl, En, De, It, Pt, ThJHazm FaRegex Le reste

Segmentationdes mots

openNlp Nl, En, De, It, Pt, ThLucene Zh, JaRegex Le reste

RadicalisationShereen Khoja ArJHazm FaHebMorph HeLucene Bg, Cs, El, Hi, Id, Ja, NoSnowball Eu, Ca, Nl, En (Porter), Fi, Fr, De, Hu, It, Pt, Ro, Ru,

Es, Sv, Tr/ Le reste

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 9/25

Page 10: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

TraitementRegroupement

Input text (D)

i <= |D|

Sim = Cosine(Si,Sj)

j = i + 1

j <= |D|

i = 1

Sim > Th

Ci = Ci + {Si}

j++

For each sentence,Find similar sentences

C is the setof clusters

i <= |C|

j = |C|

j >= 1

Ci ⊂ Cj

C = C - Ci

Delete clusters included in others

Preprocessing

Ci = Ci + {Sj}

i = 1

C = C + {Ci}i++

j--

YesYes

Yes

Yes

Yes

YesNo

No

NoNo

No

No

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 10/25

Page 11: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

TraitementApprentissage

Pf (f = φ|cj) =|φ ∈ cj |∑

cl∈C |φ′ ∈ cl |

f : critère de sélection, φ : observation de f , C : ensemble de clusters.

f ∈

Fréquence des termes (unigram) (TFU)

Fréquence des termes (bigram) (TFB)

Position de la phrase (Pos)

Longueur de la phrase (Rleng, PLeng)

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 11/25

Page 12: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

TraitementScore des phrases

Score(si , cj , fk ) = 1 +∑φ∈si

P(fk = φ|si ∈ cj)

Score(si ,⋂

j

cj ,F) =∏

j

∏k

Score(si , cj , fk )

s : phrase, c : cluster, f : critère de sélection, F : ensemble des critèresutilisées, φ : observation de f .

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 12/25

Page 13: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

PrétraitementTraitementExtraction

Extraction

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 13/25

Page 14: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

Nos contributionsNotre travail pour l’année 2014/2015

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 14/25

Page 15: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

Estimation des paramètres de résuméSeuil de regroupemennt : mesures statistiques

La médiane

La moyenne arithmétique

Le mode : bas et haut.

La variance

sDn =∑|s|

|D |∗n

Dsn = |D |n∗∑|s|

Ds = |D |∑|s|

|s| : nombre de différentes termes dans une phrase s. |D | : nombre dedifférentes termes dans un document D. n : nombre de phrases dans cedocument.

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 15/25

Page 16: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

Estimation des paramètres de résuméLa sélection des paramètres

Tâche MMS - Corpus d’apprentissage - Anglais :

TFU-TFB-Pos-RLeng

TFU-TFB-Pos-PLeng

TFU-TFB-RLeng-PLeng

TFU-Pos-RLeng-PLeng

TFB-Pos-RLeng-PLeng

TFU-TFB-Pos-RLeng-PLeng

M001

median 0.0909 0.1105 0.1259 0.1273 0.1385 0.0951sDn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203Lmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923Hmode 0.1147 0.0937 0.1301 0.1497 0.1245 0.0923mean 0.0909 0.0909 0.1189 0.0923 0.1063 0.1357variance 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203Ds 0.1119 0.1119 0.1063 0.1119 0.0531 0.1119Dsn 0.0783 0.0951 0.0895 0.1385 0.0951 0.1203

. . .

AVG

median 0.0105 0.0108 0.0112 0.0109 0.0122 0.0102sDn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106Lmode 0.0106 0.0099 0.0115 0.0133 0.0133 0.0100Hmode 0.0125 0.0095 0.0115 0.0125 0.0114 0.0100mean 0.0109 0.0089 0.0120 0.0097 0.0117 0.0133variance 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106Ds 0.0091 0.0086 0.0099 0.0100 0.0100 0.0088Dsn 0.0075 0.0095 0.0111 0.0110 0.0093 0.0106

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 16/25

Page 17: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

Estimation des paramètres de résuméLa sélection des paramètres

LangSingle document (MSS) Multidocument (MMS)Th Features Th Features

Ar Ds TFB, Pos, PLeng Ds TFB, Pos, RLeng, PLengCs HMode TFU, TFB, Pos, PLeng Ds TFB, Pos, PLengEl Median TFU, TFB, Pos, RLeng,

PLengLMode TFB, RLeng

En Median TFU, Pos, RLeng, PLeng LMode TFB, Pos, RLeng, PLengEs sDn TFB, PLeng Ds TFB, PLengFr Median TFB, Pos, RLeng Mean TFU, TFB, Pos, PLengHe Ds TFB, PLeng Median TFB, RLeng, PLengHi / / Ds TFB, Pos, RLeng, PLengRo HMode TFB, RLeng, PLeng sDn TFB, Pos, PLengZh HMode TFB, RLeng, PLeng sDn TFU, Pos, RLeng, PLeng

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 17/25

Page 18: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

MultiLing’15Critères de comparaison

Soit AS = AllSummarizerS = Un autre système qui a participé avec n langues

AVGS =

n∑i=1

ScoreS(Li)

n

AVGAS =

n∑i=1

ScoreAS(Li)

nAmélioration relative (RI) :

RI =AVGAS − AVGS

AVGS

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 18/25

Page 19: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

MultiLing’15Mono document (Tâche MSS)

MethodsOur method improvement %

R-1 R-2 R-3 R-4 R-SU4BGU-SCE-M (ar, en, he) -09.19 -14.02 -19.39 -25.12 -11.07EXB (all 38) -07.64 -10.55 -09.86 -07.92 -10.63CCS (all 38) -07.33 -13.24 -10.95 -03.04 -07.40BGU-SCE-P (ar, en, he) -04.33 -01.63 -02.69 -06.16 -01.89UA-DLSI (en, de, es) +02.12 +06.25 +13.86 +17.15 +05.62NTNU (en, zh) +06.44 +07.06 +11.50 +21.81 +05.74Oracles (all 38) [TopLine] -31.64 -49.00 -63.80 -72.91 -36.77Lead (all 38) [BaseLine] +02.39 +08.67 +08.20 +04.02 +05.82

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 19/25

Page 20: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

Estimation des paramètres de résuméParticipation à MultiLing’15 (SIGDIAL’15)

MultiLing’15Multidocument (Tâche MMS)

SysIDOur method improvement %

AutoSummENG MeMoG NPowERUJF-Grenoble (fr, en, el) -08.87 -14.55 -03.62UWB (all 10) -22.56 -22.66 -07.54ExB (all 10) -09.44 -09.16 -02.80IDA-OCCAMS (all 10) -17.11 -17.68 -05.53GiauUngVan (- zh, ro, es) -16.43 -19.40 -05.68SCE-Poly (ar, en, he) -05.72 -03.35 -01.46BUPT-CIST (all 10) +10.67 +11.53 +02.85BGU-MUSE (ar, en ,he) +05.67 +06.92 +01.74NCSR/SCIFY-NewSumRerank (- zh)

+01.53 -01.25 +00.13

AllSummazer (MSS param)(all 10)

+01.98 +02.35 +00.58

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 20/25

Page 21: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

ConclusionPerspectives

Conclusion et perspectives

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 21/25

Page 22: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

ConclusionPerspectives

Conclusion

Création d’une méthode multilingue

Estimer les paramètres (seuil et critères)

Tester le système par rapport aux systèmes récents (bonnesrésultats) [2].

Estimer les paramètres selon le document et sans prendreconsidération de la langue ?

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 22/25

Page 23: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

ConclusionPerspectives

Perspectives

Pour cette année, notre but est :

Estimer les paramètres pour chaque document et pas pour chaquelangue.

Proposer une meilleure méthode pour la détection de similarité entrephrases.

Améliorer l’ordonnancement des phrases après l’extraction.Améliorer la lisibilité du résumé généré (Anglais comme langue dedébut) :

Couramment, on travaille sur une méthode pour représenter lesphrases, en tenant compte de l’aspect multilingue.On a proposé une structure (partielle) basée sur JSON pourreprésenter les phrases.

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 23/25

Page 24: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

ConclusionPerspectives

Fin ...

Merci pour votre attention

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 24/25

Page 25: Etat d'avancement 2014/2015

ProblématiqueNotre système (All Summarizer)

Nos contributionsConclusion et perspectives

ConclusionPerspectives

Bibliography I

A. Aries, H. Oufaida, and O. Nouali, “Using clustering and a modified classification algorithm for automatic text summarization,”ser. Proc. SPIE, vol. 8658, 2013, pp. 865 811–865 811–9. [Online]. Available : http://dx.doi.org/10.1117/12.2004001

A. Aries, D. E. Zegour, and K. W. Hidouci, “Allsummarizer system at multiling 2015 : Multilingual single and multi-documentsummarization,” in Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Prague,Czech Republic : Association for Computational Linguistics, September 2015, pp. 237–244. [Online]. Available :http://aclweb.org/anthology/W15-4634

ARIES Abdelkrime (ESI 2014) Vers une amélioration des résumés automatiques de textes 25/25