Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v...
Transcript of Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v...
Les approches numeriques pour le resumeautomatique de texte
Florian Boudin
12 novembre 2009
Plan
1. Problematique
2. Approches par extraction
3. Traitements linguistiques
4. Evaluation
5. Conclusion
Definition
Une transformation reductrice d’un texte source en resume parcondensation du contenu par selection et/ou generalisation de cequi est important dans la source.
A reductive transformation of source text to summary text throughcontent condensation by selection and/or generalisation on what isimportant in the source.
(Sparck Jones, 99)
Le resume automatique de texte
K Compression (avec perte) de l’information d’un document
D Entree : document longD Sortie : document courtD Contrainte : preserver les idees essentielles
K Exemples de resumes
D Sommaire, mots cles (indicatifs)D Abstracts d’articles (informatifs)D Snippets
K Plusieurs variantes
D Mono-document | multi-documentsD Generique | oriente
A quoi sert le resume automatique ?
K Repondre au probleme de surcharge d’information
K Apercu du contenu d’un document
K Proposer une autre solution a la lecture directe
K Accelerer-simplifier l’acces a l’information
K Utilisation indirecte : recherche d’information, classification
Pourquoi est-ce si difficile ?
K Interpretations differentes du document source
K Necessite des connaissances externes
K Besoin(s) de l’utilisateur
D Indicatif : indique la nature du texteD Informatif : tente de se substituer au texteD Critique : emet un avis sur le document
K Nature des documents
K Taux de compression ( r esumesource )
Etudier le comportement humain
K Etude du comportement des resumeurs professionnels
D (Van Dijk, 79; Cremmins, 96; Endres-Niggemeyer, 98)
K 12-20 minutes pour resumer un article scientifique
D Veritable comprehension ?
K Protocole speak-out-loud → processus cognitif
D Les resumeurs ne lisent jamais le document au completD Exploiter la structure du documentD Analyse de traits surfaciques
K 70 % des phrases des resumes empruntees au texte source
D (Lin et Hovy, 03)
Plan
1. Problematique
2. Approches par extraction
3. Traitements linguistiques
4. Evaluation
5. Conclusion
Comment est-il aborde ?
K Approches extractives versus abstractives
K Processus en deux etapes
1. Identification des segments textuels importants2. Assemblage pour generer un resume (extrait)
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouce zaearva ov ijvr j za z za bvhb fa kajcn can cja cj leb kjhb eahb hbckjhboaie iocb ibacoicba ohbc oaib o i b a c o i o r i b v a i o r ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
Extraction
Sélection Compression
Assemblage
Analyse Génération RésuméDocument(s)
Les approches classiques
K Travaux de recherche debutes il y a 50 ans (Luhn, 58)
K Luhn decrit une technique specifique aux articles scientifiques
D Distribution des frequences de mots dans le documentD Normalisation des variantes orthographiquesD Extraction des phrases de plus hauts poids
K Travaux etendus par (Edmundson, 69)
D Position des phrasesD Presence des mots provenant de la structure (titres, etc.)D Presence de mots indices (cue words, ex : significant, etc.)D Evaluation manuelle par comparaison avec des references
Les approches par apprentissage
K Resume automatique → probleme de classification
D Ensemble de paires documents/resumesD Extraction des features de chaque segment/phraseD Contribution de chacun des parametres dans la ponderation ?
K (Kupiec et al., 95) utilisent un classifieur bayesien
D Criteres decrits dans (Edmundson, 69)D Features precedemment decritsD Longueur de la phrase et presence de mots en majuscules
K D’autres algorithmes ont ete experimentes
D Modeles de Markov caches (HMM) (Conroy et O’leary, 01)D Reseaux de neurones (Svore et al., 07)
Les approches par analyse rhetorique
K Theorie de la Structure Rhetorique (Mann et Thompson, 88)
D Texte organise en elements (satellites-noyaux) relies
K Elagage de l’arbre rhetorique (Ono et al., 94; Marcu, 97)
Les approches par analyse de graphes
K Document → graphe d’unites textuelles (phrases)
K Relations inter-noeuds issues de calculs de similarite
phrases
Représentation générationrésumé
Cluster dedocuments
[0.3,1.0][0.2,0.3][0.1,0.2][0.0,0.1]
Poids des arêtes
K Algorithme PageRank (Erkan et Radev, 04; Mihalcea, 04)
Resume multi-documents
K Identifier les documents aux contenus similaires
K Ponderation par similarite avec le centroıde (Radev et al., 00)
K Couverture des thematiques
Générationaromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
Résumé
Documents
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j
Pondération
Clustering
Resume oriente
K Oriente par un besoin utilisateur (requete)
K Techniques empruntees
D Recherche d’informationD Systemes de questions/reponses
K Trouver les segments pertinents (redondance !)
K Le systeme le plus simple
D Phrases et requete representees sous forme de vecteursD Ponderation par calcul de similarite (cosine)D Assemblage des segments de plus hauts scores
Plan
1. Problematique
2. Approches par extraction
3. Traitements linguistiques
4. Evaluation
5. Conclusion
Generation du resume
K Assemblage des segments les plus importants
K Ameliorer la qualite du resume → post-traitements
K Coherence et cohesion ?
D Segments provenant de differentes parties/documentsD Hors du contexte → anaphores non resolues
K Redondance de l’information dans le resume
D Ponderation des segments par rapport au documentD Haute probabilite de redondance inter- meilleurs segmentsD Multi-documents → probabilite augmente
Minimisation de la redondance
K Construction iterative MMR (Carbonell et Goldstein, 98)
K Reordonner les phrases en fonction de
D Importance de la phraseD Redondance par rapport aux phrases deja selectionneesD Ordre chronologique
MMR = arg maxs∈S
[ λ · Score(s)− (1− λ) ·maxsj∈E
Sim(s, sj) ]
D S ensemble des phrases candidatesD E ensemble des phrases selectionneesD λ coefficient d’interpolation
Ce que nous sommes capables de faire...
K Elimination
D Marie a un ballon. Le ballon est rougeD Marie a un ballon rouge
K Integration
D Le vent a emporte le ballon. Elle n’a plus de ballonD Le vent a emporte son ballon
K Construction
D Ce matin elle a pris ses toasts avec confiture. Elle a pris soncafe au lait et son bol de cereales
D Elle a pris son petit-dejeuner
K Generalisation
D Elle a mange des pommes, des poires et des raisinsD Elle a mange des fruits
... ce que les systemes automatiques font
K Reecriture des acronymes
K Normalisation des references temporelles
K Resolution d’anaphores pronominales
K Traitements surfaciques
D Suppression du contenu entre parenthesesD Normalisation de la ponctuation
K Minimiser le risque d’erreur linguistique !
Plan
1. Problematique
2. Approches par extraction
3. Traitements linguistiques
4. Evaluation
5. Conclusion
Evaluation des resumes
K Extrinseque versus Intrinseque
K Evaluation manuelle
D Qualite du texte (forme)D Capture des concepts cles (fond)D Faible accord inter-juges
K Comparaison a une reference
D Forte variabilite des phrases extraites (Rath et al., ’61)D Multiples references
Effort de la communaute
K Competitions annuelles DUC → TAC
K Donnees controlees → tests reproduisibles
K Plusieurs problematiques abordees : multi, mono, update, etc.
K Systemes evalues manuellement et (semi-)automatiquement
K Mesures (semi-)automatiques proposees
Recall-Oriented Understudy for Gisting Evaluation(ROUGE)
K Mesures classiques
K Rappel des unites (mots) entre un candidats et des references
Résumécandidat
Résumésde référence
ROUGE =Nombre( )Nombre( )
ROUGE (Lin, 2004)
Basic Elements (Hovy et al., 2005)
Pyramids
K Mesures de contenu plus robuste que ROUGE
K Necessite l’annotation manuelle des unites dans les resumes
K Exemple : 19,8 millions d’euros = approximativement 20millions d’euros
Résumésde référence Pyramide
de SCUs
poids=3
poids=2
poids=1
Résumécandidat
Pyramids = poids(SCUs )∑ candidat
poids(SCUs )∑ ideal
Pyramids (Nenkova et al., 2004)
Plan
1. Problematique
2. Approches par extraction
3. Traitements linguistiques
4. Evaluation
5. Conclusion
Conclusions
K Surcharge d’information→ resume automatique indispensable
K Methodes extractives robustes
K Forte adaptabilite
K Problematique tres ouverte
D Transversalite: RI, ML, NLG, etc.D Autres types de documents: blogs, tweets, etc.D Methodes hybrides
K Une problematique resolue ?
Une problematique resolue...
K Experience HexTac menee au RALI
D Production manuelle de resumes par methode extractiveD Represente la limite superieure des methodes extractives puresD Run meilleur que tous les systemes participants
K Langues traitees par les systemes
D Principalement en anglaisD Quelques autres langues : allemand (Reithinger et al., 00),
japonais (programme NTCIR1), portugais (Mihalcea, 04),francais (Boudin et al., 09)
1NII Test Collection for IR Systems
Les systemes existants
K MEAD (Radev et al., 01, 04)
D Statistique
K Newsblaster (McKeown et al., 02)
D Statistique + symbolique
K GISTexter (Harabagiu et Lacatusu, 02)
D RI + ressources linguistiques + patrons
K CORTEX (Torres-Moreno et al., 01)
D Statistique
Quelques lectures
K Advances in Automatic Text Summarization
D Inderjeet Mani et Mark Maybury
K Automatic Summarising: The State of the Art
D Karen Sparck Jones
K Les actes des conferences DUC, TAC
K Les theses de doctorats de
D Atefeh FarzindarD Horacio SaggionD Hal Daume III
Merci pour votre attentionAvez-vous des questions ?