Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v...

31
Les approches num´ eriques pour le r´ esum´ e automatique de texte Florian Boudin 12 novembre 2009

Transcript of Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v...

Page 1: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les approches numeriques pour le resumeautomatique de texte

Florian Boudin

12 novembre 2009

Page 2: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Page 3: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Definition

Une transformation reductrice d’un texte source en resume parcondensation du contenu par selection et/ou generalisation de cequi est important dans la source.

A reductive transformation of source text to summary text throughcontent condensation by selection and/or generalisation on what isimportant in the source.

(Sparck Jones, 99)

Page 4: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Le resume automatique de texte

K Compression (avec perte) de l’information d’un document

D Entree : document longD Sortie : document courtD Contrainte : preserver les idees essentielles

K Exemples de resumes

D Sommaire, mots cles (indicatifs)D Abstracts d’articles (informatifs)D Snippets

K Plusieurs variantes

D Mono-document | multi-documentsD Generique | oriente

Page 5: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

A quoi sert le resume automatique ?

K Repondre au probleme de surcharge d’information

K Apercu du contenu d’un document

K Proposer une autre solution a la lecture directe

K Accelerer-simplifier l’acces a l’information

K Utilisation indirecte : recherche d’information, classification

Page 6: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Pourquoi est-ce si difficile ?

K Interpretations differentes du document source

K Necessite des connaissances externes

K Besoin(s) de l’utilisateur

D Indicatif : indique la nature du texteD Informatif : tente de se substituer au texteD Critique : emet un avis sur le document

K Nature des documents

K Taux de compression ( r esumesource )

Page 7: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Etudier le comportement humain

K Etude du comportement des resumeurs professionnels

D (Van Dijk, 79; Cremmins, 96; Endres-Niggemeyer, 98)

K 12-20 minutes pour resumer un article scientifique

D Veritable comprehension ?

K Protocole speak-out-loud → processus cognitif

D Les resumeurs ne lisent jamais le document au completD Exploiter la structure du documentD Analyse de traits surfaciques

K 70 % des phrases des resumes empruntees au texte source

D (Lin et Hovy, 03)

Page 8: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Page 9: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Comment est-il aborde ?

K Approches extractives versus abstractives

K Processus en deux etapes

1. Identification des segments textuels importants2. Assemblage pour generer un resume (extrait)

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouce zaearva ov ijvr j za z za bvhb fa kajcn can cja cj leb kjhb eahb hbckjhboaie iocb ibacoicba ohbc oaib o i b a c o i o r i b v a i o r ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

Extraction

Sélection Compression

Assemblage

Analyse Génération RésuméDocument(s)

Page 10: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les approches classiques

K Travaux de recherche debutes il y a 50 ans (Luhn, 58)

K Luhn decrit une technique specifique aux articles scientifiques

D Distribution des frequences de mots dans le documentD Normalisation des variantes orthographiquesD Extraction des phrases de plus hauts poids

K Travaux etendus par (Edmundson, 69)

D Position des phrasesD Presence des mots provenant de la structure (titres, etc.)D Presence de mots indices (cue words, ex : significant, etc.)D Evaluation manuelle par comparaison avec des references

Page 11: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les approches par apprentissage

K Resume automatique → probleme de classification

D Ensemble de paires documents/resumesD Extraction des features de chaque segment/phraseD Contribution de chacun des parametres dans la ponderation ?

K (Kupiec et al., 95) utilisent un classifieur bayesien

D Criteres decrits dans (Edmundson, 69)D Features precedemment decritsD Longueur de la phrase et presence de mots en majuscules

K D’autres algorithmes ont ete experimentes

D Modeles de Markov caches (HMM) (Conroy et O’leary, 01)D Reseaux de neurones (Svore et al., 07)

Page 12: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les approches par analyse rhetorique

K Theorie de la Structure Rhetorique (Mann et Thompson, 88)

D Texte organise en elements (satellites-noyaux) relies

K Elagage de l’arbre rhetorique (Ono et al., 94; Marcu, 97)

Page 13: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les approches par analyse de graphes

K Document → graphe d’unites textuelles (phrases)

K Relations inter-noeuds issues de calculs de similarite

phrases

Représentation générationrésumé

Cluster dedocuments

[0.3,1.0][0.2,0.3][0.1,0.2][0.0,0.1]

Poids des arêtes

K Algorithme PageRank (Erkan et Radev, 04; Mihalcea, 04)

Page 14: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Resume multi-documents

K Identifier les documents aux contenus similaires

K Ponderation par similarite avec le centroıde (Radev et al., 00)

K Couverture des thematiques

Générationaromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

Résumé

Documents

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

Pondération

Clustering

Page 15: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Resume oriente

K Oriente par un besoin utilisateur (requete)

K Techniques empruntees

D Recherche d’informationD Systemes de questions/reponses

K Trouver les segments pertinents (redondance !)

K Le systeme le plus simple

D Phrases et requete representees sous forme de vecteursD Ponderation par calcul de similarite (cosine)D Assemblage des segments de plus hauts scores

Page 16: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Page 17: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Generation du resume

K Assemblage des segments les plus importants

K Ameliorer la qualite du resume → post-traitements

K Coherence et cohesion ?

D Segments provenant de differentes parties/documentsD Hors du contexte → anaphores non resolues

K Redondance de l’information dans le resume

D Ponderation des segments par rapport au documentD Haute probabilite de redondance inter- meilleurs segmentsD Multi-documents → probabilite augmente

Page 18: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Minimisation de la redondance

K Construction iterative MMR (Carbonell et Goldstein, 98)

K Reordonner les phrases en fonction de

D Importance de la phraseD Redondance par rapport aux phrases deja selectionneesD Ordre chronologique

MMR = arg maxs∈S

[ λ · Score(s)− (1− λ) ·maxsj∈E

Sim(s, sj) ]

D S ensemble des phrases candidatesD E ensemble des phrases selectionneesD λ coefficient d’interpolation

Page 19: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Ce que nous sommes capables de faire...

K Elimination

D Marie a un ballon. Le ballon est rougeD Marie a un ballon rouge

K Integration

D Le vent a emporte le ballon. Elle n’a plus de ballonD Le vent a emporte son ballon

K Construction

D Ce matin elle a pris ses toasts avec confiture. Elle a pris soncafe au lait et son bol de cereales

D Elle a pris son petit-dejeuner

K Generalisation

D Elle a mange des pommes, des poires et des raisinsD Elle a mange des fruits

Page 20: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

... ce que les systemes automatiques font

K Reecriture des acronymes

K Normalisation des references temporelles

K Resolution d’anaphores pronominales

K Traitements surfaciques

D Suppression du contenu entre parenthesesD Normalisation de la ponctuation

K Minimiser le risque d’erreur linguistique !

Page 21: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Page 22: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Evaluation des resumes

K Extrinseque versus Intrinseque

K Evaluation manuelle

D Qualite du texte (forme)D Capture des concepts cles (fond)D Faible accord inter-juges

K Comparaison a une reference

D Forte variabilite des phrases extraites (Rath et al., ’61)D Multiples references

Page 23: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Effort de la communaute

K Competitions annuelles DUC → TAC

K Donnees controlees → tests reproduisibles

K Plusieurs problematiques abordees : multi, mono, update, etc.

K Systemes evalues manuellement et (semi-)automatiquement

K Mesures (semi-)automatiques proposees

Page 24: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Recall-Oriented Understudy for Gisting Evaluation(ROUGE)

K Mesures classiques

K Rappel des unites (mots) entre un candidats et des references

Résumécandidat

Résumésde référence

ROUGE =Nombre( )Nombre( )

ROUGE (Lin, 2004)

Basic Elements (Hovy et al., 2005)

Page 25: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Pyramids

K Mesures de contenu plus robuste que ROUGE

K Necessite l’annotation manuelle des unites dans les resumes

K Exemple : 19,8 millions d’euros = approximativement 20millions d’euros

Résumésde référence Pyramide

de SCUs

poids=3

poids=2

poids=1

Résumécandidat

Pyramids = poids(SCUs )∑ candidat

poids(SCUs )∑ ideal

Pyramids (Nenkova et al., 2004)

Page 26: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Page 27: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Conclusions

K Surcharge d’information→ resume automatique indispensable

K Methodes extractives robustes

K Forte adaptabilite

K Problematique tres ouverte

D Transversalite: RI, ML, NLG, etc.D Autres types de documents: blogs, tweets, etc.D Methodes hybrides

K Une problematique resolue ?

Page 28: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Une problematique resolue...

K Experience HexTac menee au RALI

D Production manuelle de resumes par methode extractiveD Represente la limite superieure des methodes extractives puresD Run meilleur que tous les systemes participants

K Langues traitees par les systemes

D Principalement en anglaisD Quelques autres langues : allemand (Reithinger et al., 00),

japonais (programme NTCIR1), portugais (Mihalcea, 04),francais (Boudin et al., 09)

1NII Test Collection for IR Systems

Page 29: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Les systemes existants

K MEAD (Radev et al., 01, 04)

D Statistique

K Newsblaster (McKeown et al., 02)

D Statistique + symbolique

K GISTexter (Harabagiu et Lacatusu, 02)

D RI + ressources linguistiques + patrons

K CORTEX (Torres-Moreno et al., 01)

D Statistique

Page 30: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Quelques lectures

K Advances in Automatic Text Summarization

D Inderjeet Mani et Mark Maybury

K Automatic Summarising: The State of the Art

D Karen Sparck Jones

K Les actes des conferences DUC, TAC

K Les theses de doctorats de

D Atefeh FarzindarD Horacio SaggionD Hal Daume III

Page 31: Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v ljv hba ljb vljb alv j blavkjb ljvb vkljab lajvbi jafdqvvqfvoi ioa o ianr n nblkjvba

Merci pour votre attentionAvez-vous des questions ?