Utilisation des citations pour le résumé automatique de la...

Post on 27-May-2020

9 views 0 download

Transcript of Utilisation des citations pour le résumé automatique de la...

Utilisation des citations pour le résumé automatique de la

contribution d’articles scientifiques

Bruno Malenfant

Guy Lapalme

2

Corpus Articles

ArticlesXML

Base RDF

RésuméArticlesXML

RP+CPs

Transformation

Sélection

Transfo

rmatio

n

Analyse

Métriques

Déterminer facette

CitancesAnnotés

+RP

Extraction

Éval

uat

ion

MétriquesRouge

RP

CP

CP

CP

• C1• C2

• C3• C4

• C5• C6

• C2• C5

Extrait

Résumé

3

Comparaison avec travaux antérieurs

Graphe de citation :

• Vincent Larivière :• Bibliométrique, analyse des graphes de citation.

• Dragomir R. Radev, Vahed Qazvinian (AAN) :• Analyse des graphes de citation.

4

Comparaison avec travaux antérieurs

Résumé :

• Vahed Qazvinian et Dragomir R Radev 2008 :• Résumé à l’aide d’un graphe de citance.

• Qiaozhu Mei et ChengXiang Zhai 2008 :• Résumé de l’impact d’un article.

• Participants TAC 2014, CL 2014, CL 2016 :• Résumé de l’impact d’un article.

5

Définitions

• Le terme citance a été proposé par Preslav I. Nakov, Ariel S. Schwartz et Marti A. Hearst pour décrire l’ensemble des phrases entourant une citation. Le texte entourant une citation va souvent évoquer des informationstraitées dans l’articles de référence. Ces informations sontgénéralement énoncés de façon concise.

6

White [32] provides a good recent review of the field of citation analysis (for a more thorough but less recent review of the field see [22]). White describes three major lines of research in the field of citation analysis.

Corpus

• ACL Anthology Network

• Environ 20 360 articles avec leurs méta-informations

• Nombre de liens : 110 930 références

7

Corpus

• Compétitions

• TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP).

• CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP).

• CL 2016 : 30 articles (RP) pré-annotés avec les 486 articles les citant (CP).

• Annotations

• Citance : phrase de référence

• Résumé

8

Production du résumé

• Technique : Maximal Marginal Relevance.• Incrémentale

• Élimine la redondance

• Choisir phrase par phrase1. Citances

2. Extraits de l’article résumé

• C2• C5

Extrait

Résumé

9

MMR : Maximal Marginal Relevance

• Le MMR permet un contrôle entre avoir des phrases similaires à une phrase requête et différente aux phrases déjà choisie (𝜆).

Titre RP

P1P2P3P4P5P6

R1R2R3

Requête

Phrases potentiellesRésumé

𝜆𝑆𝑖𝑚 − 1 − 𝜆 𝑆𝑖𝑚

10

Similarité entre phrases (Mihalcea, Corley et Strapparava)

… systems that can automatically summarize one or more documents become …

…it is especially useful to have tool which can help users…

0,800,33

• Moyenne pondéré par idf des similarités entre les mots.• Similarité de Zhibiao Wu et Martha Palmer entre les mots.

11

12

Similarité entre phrases (Mihalcea, Corley et Strapparava)

… systems that can automatically summarize one or more documents become …

…it is especially useful to have tool which can help users…

0,80

0,80 0,200,33

0,33

• Moyenne pondéré par idf des similarités entre les mots.• Similarité de Zhibiao Wu et Martha Palmer entre les mots.

Production du résumé

Requête

Citances

Requête

Citanceschoisies

Extraits RP

Résumé=

Citances+

Extraits

MMR

MMR

Trouver le meilleur ratio entre citances et extraits ?

1. Choisir des phrases parmi les citances.2. Choisir des phrases dans le RP.

13

Sorties de Citatum

14

Évaluation des résumés

• Utilisation de Rouge-2 et 4 pour comparer les résumés résultants.

Rouge = Recall-Oriented Understudy for Gisting Evaluation

• Donne les meilleurs résultats avec 8% de phrase des citances et 92% de phrases extraites de l’article.

• 𝜆 = 0.52 pour les citances.

• 𝜆 = 1.00 pour les extraits : favorise les phrases similaires au titre.

15

Évaluation des résumés

• Troisième sur cinq équipes.

• Rouge-4 = 0.084

• Autres : entre 0.035 et 0.117

16

Travaux futurs

• Déterminer la portée d’une citance.

• Résumé dirigé vers les facettes.• Simone Teufel : basis, contras , other.

• TAC : hypothesis, methods, results, implication, discussion.

• CL-Summ : hypothesis, methods, results, implication, aims.

• CiTO (Citation Typing Ontology, 41 facettes):

• Positive : confirms, credits, extends, obtainsSupportFrom, supports, updates.

• Négative : corrects, critiques, disagreesWith, qualifies, refutes.

• Neutre : discusses, reviews.

17

Conclusion

• Il y a un intérêt pour les résumés d’articles scientifiques et leurs impacts: TAC 2014, Comp Ling Summarization.

• Les citances donnent de l’information nouvelle et utile pour mesurer l’impact d’un article.

• Nous avons proposé des techniques pour construire un résumé utilisant les citances et l’article à résumer.

18