Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux...
-
Upload
anastase-normand -
Category
Documents
-
view
108 -
download
0
Transcript of Extraction dinformation de documents textuels associ s à des contenus audiovisuels Estelle Le Roux...
Extraction dExtraction dinformation de documents information de documents textuels associtextuels associ₫₫s à des contenus s à des contenus
audiovisuelsaudiovisuels
Estelle Le Roux
INA - LIMSI
S₫minaire groupe LIR - 26 juin 2001
Estelle Le Roux - S₫minaire LIR - 26/06/012
Plan (1/2)
1 LINA 1 LINA : archivage et communication de laudiovisuel2 La recherche : nouvelle indexation de laudiovisuel
2 Lindexation audiovisuelle (AV)1 Les difficult₫s de lindexation AV2 Quel(s) type(s) de texte choisir ?
1 Exemple issu dune notice
3 L₫crit en aide à lindexation AV4 Mon sujet au sein du processus de lindexation audiovisuelle5 D₫limitations de mon sujet
Estelle Le Roux - S₫minaire LIR - 26/06/013
Plan (2/2)
3 Lextraction dinformation (EI)1 Le corpus2 Pourquoi ce corpus ?3 Un extrait du corpus4 Le processus de lEI 5 Analyse syntaxique robuste6 Des amorces pour des patrons7 Lapport s₫mantique8 Exemple
4 Travail en cours
Estelle Le Roux - S₫minaire LIR - 26/06/014
Plan
LINA
Lindexation audiovisuelle
Lextraction dinformation
Travail en cours
Estelle Le Roux - S₫minaire LIR - 26/06/015
LINA : archivage et communication de laudiovisuel (1/2)
Cr₫ation en 1975 de lInstitut National de lAudiovisuel.
Objectifs : constitution et communication du patrimoine audiovisuel
sauvegarder, num₫riser, restaurer et transmettre les ₫missions AV.
Quelques nombres 45 ans darchives TV ; 60 ans darchives radiophoniques.
1,5 million d'heures de radio et de t₫l₫vision ; 2,5 millions de documents AV.
Estelle Le Roux - S₫minaire LIR - 26/06/016
LINA : archivage et communication de laudiovisuel (2/2)
Source aliment₫e par : lensemble des diffuseurs nationaux de
t₫l₫vision et les 5 chaînes nationales de Radio France.
Source toujours en pleine croissance.
Source in₫puisable dimages et de sons.
Estelle Le Roux - S₫minaire LIR - 26/06/017
La recherche : nouvelle indexation de laudiovisuel
Lessor du num₫rique modifie la mani₩re dindexer les documents audiovisuels :
fond vid₫o en cours de num₫risation ;
ajout de m₫tadonn₫es dans les documents ;
₫volution vers de nouvelles pistes dindexation.
Les diffuseurs
Si la loi de juin 1992 est de port₫e g₫n₫rale, son d₫cret d'application du 31 d₫cembre 1993 concerne:
les diffuseurs nationaux hertziens; les ₫missions d'origine fran₤aise en premi₩re diffusion; les documents ₫crits d'accompagnement (conducteur d'₫mission, rapport de chef de chaîne, dossier de presse...).
Est ₫galement admis le principe d'un d₫pôt exhaustif ou s₫lectif selon le type d'₫mission. En outre, un protocole technique fixe les normes de d₫pôt (support Beta SP, protocole d'enregistrement...).
Page modifi₫e le: 19/09/00 Commentaires et questions : Aspect contenu / Aspect technique
Acc₩s à la version l₫g₩re du site | © 2000 Institut National de l'Audiovisuel
Estelle Le Roux - S₫minaire LIR - 26/06/018
Plan
LINA
Lindexation audiovisuelle
Lextraction dinformation (EI)
Travail en cours
Estelle Le Roux - S₫minaire LIR - 26/06/019
Les difficult₫s de lindexation AV
Lindexation des documents AV pose deux probl₩mes : Comment d₫couper les unit₫s audiovisuelles
devant ₨tre index₫es ? ; Quelle signification donner à une image ?
Piste : indexer les documents AV en saidant de textes.
Estelle Le Roux - S₫minaire LIR - 26/06/0110
Quel(s) type(s) de texte choisir ? (1/2)
Les vid₫os sont toujours accompagn₫es de textes avant-programme, conducteur dantenne, fiche
M₫diam₫trie, notices
Probl₩mes : tous les textes ne peuvent venir en aide à lindexation AV ; certains textes int₫ressants sont sous format papier ; il est parfois difficile dobtenir certains ₫l₫ments num₫ris₫s.
Estelle Le Roux - S₫minaire LIR - 26/06/0111
Exemple issu dune notice
Dans l'affaire BOUSQUET, la chambre d'accusation de la cour d'appel de Paris, s'est d₫clar₫e comp₫tente pour instruire le dossier et ce contre l'avis du Parquet. C'est une victoire pour les familles de juifs d₫port₫s : RENE BOUSQUET est
de photos de lui sur un film montrant des enfants juifs 7
EMISSION,record=240
JOURNAL DU JOUR : BOUSQUETPARIS{OFF}JUSTICEBOUSQUET RENEINCULPATIONPROCEDURE JUDICIAIREGUERRE MONDIALE 2EME, {OFF}GOUVERNEMENT VICHY, {OFF}COLLABORATION-POLITIQUECRIME DE GUERRESINZ CAROLINEPARISJOURNAL TELEVISE FRANCE REGIONS 3
accus₫ de collaboration dans les rafles de juifs.
- PHOTOS de BOUSQUET, jeune.- Superposit° dsun camp.
Liste (noms propres, genres, )
Langage libre(r₫sum₫)
Langage documentaire
Les notices, bien qu₫tant num₫ris₫es et poss₫dant un r₫sum₫ du document AV ne nous sont pas utiles pour faire de lextraction dinformation :
trop de formats diff₫rents ; document risquant dentraîner des pertes dinformations pertinentes.
Estelle Le Roux - S₫minaire LIR - 26/06/0112
Quel(s) type(s) de texte choisir ? (2/2)
Transcription de l₫mission audiovisuelle Int₫r₨t : tout ce qui est dit au cours du document AV
apparaît ₫crit ; Probl₩mes :
ce qui est dit nest pas forc₫ment ce que lon voit ; la transcription est rare pour le moment.
Textes «ext₫rieurs» aux documents AV : les articles de la presse ₫crite Int₫r₨ts : parlent du m₨me ₫v₫nement que la vid₫o
et la plupart des articles sont num₫ris₫s.
Estelle Le Roux - S₫minaire LIR - 26/06/0113
L₫crit en aide à lindexation AV
Tour de France Epreuve du 05 juillet 1999
Articles de journaux Vid₫o
Jacky Durand doit r₫cup₫rer de sa chute au passage du Gois.
Estelle Le Roux - S₫minaire LIR - 26/06/0114
Mon sujet au sein du processus de lindexation audiovisuelle
Informations pertinentes extraite des journaux
chute (Jacky Durand, au passage du Gois)
abandon (Jacky Durand)
Indexation audiovisuelle
Les coureurs Description de l₫tape
Jacky Durand chute au passage du Gois.
OntologieVid₫o
Autres modules
Estelle Le Roux - S₫minaire LIR - 26/06/0115
D₫limitations de mon sujet
La cr₫ation dune ontologie et la mani₩re de relier informatiquement le texte à la vid₫o seront faites par dautres personnes à lINA.
Lextraction dinformation ne va se faire que sur des documents dactualit₫ (aucun document de fiction, talk show, etc.).
Estelle Le Roux - S₫minaire LIR - 26/06/0116
Plan
LINA
Lindexation audiovisuelle
Lextraction dinformation (EI)
Travail en cours
Estelle Le Roux - S₫minaire LIR - 26/06/0117
Le Corpus
Domaine sportif : Tour de France cycliste 99.
Articles issus des journaux : Le Monde, LEquipe, Le Parisien, Lib₫ration et de lA.F.P.
Taille du corpus apprentissage: 150 955 mots (pour le mois de juillet 1999).
Estelle Le Roux - S₫minaire LIR - 26/06/0118
Pourquoi ce corpus ? (1/2)
₫v₫nement dactualit₫ film₫ et relat₫ dans les journaux ₫crits ;
₫v₫nement qui se d₫roule durant 3 semaines ;
1999 : ann₫e assez r₫cente pour obtenir des informations num₫riques issues de la presse et les vid₫os sont disponibles à lInath₩que ;
Estelle Le Roux - S₫minaire LIR - 26/06/0119
Pourquoi ce corpus ? (2/2)
diff₫rents types de journaux pour avoir un corpus repr₫sentatif de diff₫rents types de langage ;
les donn₫es de ces journaux, en format num₫rique, sont accessibles.
Estelle Le Roux - S₫minaire LIR - 26/06/0120
Un extrait du corpus
3e ₫tape: "bis repetita" pour Steels .
LAVAL (Mayenne), 6 juil (AFP). En deux jours, le Belge Tom Steels (Mapei) a remport₫ deux victoires dans le Tour de France dont il s'est adjug₫, mardi, à Laval, la troisi₩me ₫tape. ()
Au lendemain de la chute massive du passage du Gois, l'Espagnol Javier Pascual Llorente a tent₫ de poursuivre sa route malgr₫ ses nombreuses contusions et un poignet douleureux. Distanc₫ apr₩s 25 kilom₩tres, il a fini par mettre pied à terre six kilom₩tres plus loin.
Au classement g₫n₫ral provisoire, Steels est pass₫ à la deuxi₩me place, à 17 secondes de Kirsipuu. O'Grady est point₫ à la troisi₩me place, à 20 secondes, tout comme l'Am₫ricain Lance Armstrong, le vainqueur du prologue.
Extrait issu de lA.F.P. du 06 juillet 1999
Estelle Le Roux - S₫minaire LIR - 26/06/0121
Le processus de lEI
Analyse syntaxique robuste
Patrons dextraction
ontologie Patrons dindexation
Enrichissement de lontologie
Amorces
Extraction de linformation« contenu »
« contenant »
Estelle Le Roux - S₫minaire LIR - 26/06/0122
Analyse syntaxique robuste
Outil : Lexter v11 (Bourigault, 94) utilisant Cordial 7
pour l₫tiquetage des textes ;
Int₫r₨t : pour les patrons dextraction.
Estelle Le Roux - S₫minaire LIR - 26/06/0123
Des amorces pour des patrons
Id₫e : rep₫rer des termes appartenant à une m₨me cat₫gorie syntaxique et se trouvant dans les m₨mes contextes.
instancier des patrons et apporter de nouvelles sp₫cialisations qui peuvent s'ajouter à l'ontologie.
Principe : Donn₫es dentr₫e : un texte ₫tiquet₫ syntaxiquement, des
cat₫gories contenant des amorces et des patrons ; Donn₫es en sortie : de nouveaux termes viennent augmenter les
cat₫gories.
Inspiration : AutoSlog (Riloff & Shepherd, 97) Diff₫rence principale : Riloff et Shepherd prennent moins en
compte le contexte.
Estelle Le Roux - S₫minaire LIR - 26/06/0124
Lapport s₫mantique (1/2)
Outil : Zellig 7 (Habert & Fabre, 99).
Int₫r₨t : visualisation des regroupements de mots suivant le contexte dans lequel ils apparaissent
utile pour compl₫ter des cat₫gories ayant des amorces ;
aide dans la constitution et/ou l'enrichissement des classes de l'ontologie du domaine.
Estelle Le Roux - S₫minaire LIR - 26/06/0125
Lapport s₫mantique (2/2)
Linformation extraite à laide des patrons dextraction doit servir à lindexation des documents audiovisuels.
La s₫mantique joue alors un rôle principal pour pouvoir instancier des patrons dindexation.
Patrons dindexation :
ils correspondent à des structures g₫n₫riques d₫finissant un niveau et un type de description sur les objets montr₫s, les paroles entendues ;
ils sont li₫s à une ontologie.
Estelle Le Roux - S₫minaire LIR - 26/06/0126
Exemple (1/4)
Top
Objet Spatial
Pays
Nationalit₫
Ville
Personne
Coureur cycliste
Encadrant PersonnelTour
Spectateur
Lontologie va ₨tre formul₫e avec une logique de description.
Exemple dune ontologie sur le cyclisme
Estelle Le Roux - S₫minaire LIR - 26/06/0127
Exemple (2/4)
AmorcesFan₤ais_Nc@NATIONALITEEspagnol_Nc@NATIONALITEMapei_Np@EQUIPEBanesto_Np@EQUIPEdeux_Mc@NUMtrois_Mc@NUMpremi₩re_Ao@ORDINALdeuxi₩me_Ao@ORDINALLaval_Np@VILLEParis_Np@VILLEArpajon_Np@VILLE₫tape_N@EPREUVEcoureur_N@CYCLISTE
Patron dextractionDa (Nc) (Np) (Np) Y (Np) Y Va Vm (Mc) NcLe_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport₫_Vm (deux_Mc) victoires_Nc
Le <Nationalit₫> <CoureurCycliste> a remport₫ <Num> victoire
Estelle Le Roux - S₫minaire LIR - 26/06/0128
Exemple (3/4)
Patron :
le <Nationalit₫> <CoureurCycliste> :
Da (Nc) (Np) (Np)
Le_Da (Belge_Nc) (Tom_Np) (Steels_Np)
Amorces :
Fran₤ais_Nc@NATIONALITE
Espagnol_Nc@NATIONALITE
Belge_Nc :
- n'apparaît pas dans les amorces ;
- se trouve dans le contexte dans lequel on attend une nationalit₫.
Cr₫ation dune nouvelle amorce : Belge_Nc@NATIONALITE.
Enrichissement de la base de connaissances de lontologie.
Enrichissement de lontologie
Estelle Le Roux - S₫minaire LIR - 26/06/0129
Exemple (4/4)
Le_Da (Belge_Nc) (Tom_Np) (Steels_Np) (_Y (Mapei_Np) )_Y a_Va remport₫_Vm (deux_Mc) victoires_Nc
Instance de Nationalit₫
Instance de CoureurCyclisteInstance de Equipe
Instance de Num
aCommeNationalit₫(CoureurCycliste, Nationalit₫) aCommeNationalit₫(Tom Steels, Belge)
AcommeMembre(Equipe, CoureurCycliste) aCommeMembre(Mapei, Tom Steels)
aRemport₫Victoire(CoureurCycliste, Num) aRemport₫Victoire(Tom Steels, deux)
Patron dindexation
Estelle Le Roux - S₫minaire LIR - 26/06/0130
Plan
LINA
Lindexation audiovisuelle
Lextraction dinformation
Travail en cours
Estelle Le Roux - S₫minaire LIR - 26/06/0131
Travail en cours
Validation de lontologie avec dautres personnes à lINA.
Cr₫ation des cat₫gories qui permettront dinstancier des patrons.
Cr₫ation et instanciation des patrons dextraction dinformation.
Cr₫ation et instanciation de patrons d'indexation.
Visualisation des documents audiovisuels relatant le Tour de France 1999.
Estelle Le Roux - S₫minaire LIR - 26/06/0132
Bibliographie
D. Bourigault (1994), LEXTER : un Logiciel d'Extraction et de TERminologie. Application à l'extraction des connaissances à partir de textes, Th₩se, Paris.
B. Habert & C. Fabre (1999), Elementary Dependency Trees for Identifying Corpus-specific Semantic Classes, Computers and the Humanities, vol. 33, n° 3, pp. 207-219.
E. Riloff & J. Shepherd (1997), A Corpus-Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing (EMNLP-2), Brown University, Providence, Rhode Island, USA.