INDEXATION DE DOCUMENTS AUDIOVISUELSpython.espe-bretagne.fr/visa/wp-content/uploads/... · réseaux...
Transcript of INDEXATION DE DOCUMENTS AUDIOVISUELSpython.espe-bretagne.fr/visa/wp-content/uploads/... · réseaux...
INDEXATION DE DOCUMENTS AUDIOVISUELS Yannick Prié – LIRIS UMR 5205 CNRS - Université Claude Bernard Lyon 1 Journées VISA – 18 décembre 2008
Présentation
MCF informatique Université Claude Bernard Lyon 1 Equipe SILEX (Supporting Interaction and Learning
with Experience) dirigée par Alain Mille
Thème de recherche : inscriptions informatiques enregistrées automatiquement : traces modélisées inscrites volontairement : annotations
Plan
Indexation ? Numérique et indexation Audiovisuel numérique et indexation Problématiques actuelles
Indexation ?
Pas une problématique nouvelle Bibliothèque d’Alexandrie Correspondances entre passages de la bible
Outils et techniques de repérage de l’information Repérage des documents Repérage de l’information dans les textes
Accélération avec l’arrivée des « sciences de l’information et de la documentation » Fin XIXe / début XXe
Recherche d’information
Indexation d’un corpus de documents décrire les documents : descripteurs construire des index : accès aux documents par les
descripteurs Recherche d’information
exprimer un besoin d’information pour l’utilisateur mettre en relation la description du besoin et les
descripteurs du corpus documentaliste, outil de gestion d’index
trouver un ensemble de documents itérer
Décrire un document
Normaliser la forme de description des documents : notices cotation / identification : unique auteur, titre, éditeur sujet du document, thème, forme, niveau d’utilisation, domaine
d’utilisation, etc. utilisation de mots-clés
Normaliser le vocabulaire utilisé pour décrire les documents : langages documentaires Procédé conventionnel de représentation des informations d’un
document sous une forme condensée et normalisée. Langage artificiel, constitué de représentations de notions et de relations entre ces notions et destiné, dans un système documentaire, à formaliser les données contenues dans les documents et dans les demandes des utilisateurs (AFNOR)
Référentiels de connaissances
Langages documentaires
Listes d’autorité : à plat Terminologie : des définitions Thésaurus :
des relations Ontologie formelle :
des relations et des inférences
Deux types d’indexation
Indexation classique notice = liste de descripteurs
Indexation plein texte (texte intégral) sur les notices, sur les textes garder les termes, éliminer les mots vides statistiques utilisation éventuelle de connaissances linguistiques
Recherche d’information
Recherche simple Le modèle google : du texte
Recherche avancée Les champs Les types d’interrogation
Recherche par navigation navigation dans la base de descripteurs / documents suggestions
Qui travaille là-dessus ?
Informatique recherche d’information (RI) gestion des connaissances / ingénierie des
connaissances informatique linguistique IHM, ergonomie
Information et communication histoire philosophie des techniques
Plan
Indexation ? Numérique et indexation Audiovisuel numérique et indexation Problématiques actuelles
Numérique et indexation
Numérique : documents numériques numérisation numérique « originel »
Dans les entreprises GED : gestion électronique des documents Mutation vers la gestion des connaissances (KM)
Grand public Documents personnels Web
Besoins renouvelés d’indexation
Conséquences du numérique
Formats documentaires Documents textuels
une structure logique (XML) des structures physiques (HTML, PDF, mobile…)
Documents audiovisuels Métadonnées
Dublin Core Indexation plein texte Fragmentation documentaire
définir des fragments composer à partir de fragments bombe à fragmentation ? (©BB)
Documentarisation générale du monde
Mutations de l'indexation
Moteurs de recherche à l’échelle du web Indexation sociale : tags, recommandations
folksonomies réseaux sociaux
Indexation sémantique : web sémantique ontologies
Indexation par l’usage traces
Quelques mots-clés visualisation, données personnelles, intégration recherche et
utilisation de ressources
Google SearchWiki
Plan
Indexation ? Numérique et indexation Audiovisuel numérique et indexation Problématiques actuelles
Système d’information audiovisuelle
« tout SI visant à gérer de l'information audiovisuelle »
Fonctionnalités Indexation / description Recherche
Visualisation résultats Réutilisation / adaptation
Exemples de SIAV
Vidéo personnelle YouTube, DailyMotion
Audiovisuel classique TF1
Journalisme (Media Asset Management) HyperCast, Virage
Vidéo-surveillance Omnicast
Archives Ina
Enseignement lesite.tv
Gestion de minutes de réunions (online ou non) nombreux acteurs
…
Descriptions automatiques
Descriptions généralistes son : transcription, reconnaissance de locuteurs, segmentation
voix/musique… image : détection de plans, de séquences, de visages, de
personnages, de mouvements… Descriptions pour applications spécialisées
plus on connaît la forme des documents, plus on peut spécialiser les traitements Vidéo surveillance Minutes de réunions Programmation télévisuelle …
Quaero : un gros projet européen français
Développer des « outils intégrés de gestion des contenus multimédias », dont un moteur de recherche
D’autres projets européens existent Pharos Chorus
Automatisation toujours
Plan
Indexation ? Numérique et indexation Audiovisuel numérique et indexation Problématiques actuelles
Systèmes de lecture active
Lecture active Transcription
Le texte comme fil directeur
Annotations Le fragment et sa description
Outils de lecture active Exemples Advene
Advene
Annotate Digital Video, Exchange on the Net LIRIS, Université Lyon – 5 ans de développement Open Source (GPL) Multiplateforme Partage de catégories de descriptions,
d’annotations, et de façon de les visualiser Outils innovants d’interaction avec les flux
Advene
Vidéo sur le web
Avancées Dynamisme YouTube et les autres
Du côté de la normalisation HTML5
intégration aisée de la vidéo dans les pages web
Groupes de travail W3C media fragment media annotation
Recherche à base d’audiovisuel : diffusion / médiation
Anthropologie, linguistique, didactique, etc. Constitution de corpus, description des corpus, création
de matériel, publications, etc. valoriser autrement qu’avec l’article ? diffuser vers le public ?
Exemple de projet : Anthroponet (TGE Adonis) Pilotage Musée de l’Homme Ateliers
Catalogage/ indexation fine Publication vers les pairs / médiation scientifique vers le grand
public Communiquer, échanger avec les public
Un exemple de projet : Cinélib
Pilotage IRI (Centre Pompidou) / LIRIS « Réseau social du cinéma » Corpus de film
Vidéo à la demande (VoD) Bibliothèques de films
Partage de lecture, d’analyses NETIA, Exalead, Univers Ciné Financement FUI demandé
En guise de conclusion
Indexer est vital dans une logique d’archivage (par définition) dans une logique de travail avec des documents numériques
(annotations, corpus) Au-delà du document, le fragment
beaucoup de choses vont changer Développement de la vidéo sur le web
source d’innovation, question de culture la vidéo pour remplacer le texte ?
« Quand YouTube remplacera Google » (cf. InternetActu)
Au delà de l’individu, le groupe, le monde collaboration, réseaux sociaux, diffusion de la recherche, etc.
ANNEXE : ADVENE
Projet Advene
Annotate Digital Video, Exchange on the Net Créer, utiliser, échanger ses propres analyses de
documents audiovisuel sous la forme d’hypervidéos http://advene.org/ Open Source LIRIS, Open Source, 2002-
Advene : principes
Vidéo Recueil
1. Création de l'hypervidéo
3. Consultation de l'hypervidéo
2. Partage de l'hypervidéo
@
Courriel Serveur web
Les hypervidéos dans Advene
Document audiovisuel annoté document AV structure d’annotation
Vue « façon de présenter » un
document audiovisuel annoté
Hypervidéo Ensemble de vues utilisant des informations
du document ET de la structure d’annotation, donnant accès à la temporalité du flux
Hyper : accès direct Vidéo : flux temporel
Généralisation pour plusieurs documents AV
32
Advene : principes
Objectifs Advene
Etudes émergence nouveaux usages de l’audiovisuel, hypervidéos nouveaux modèles pour les annotations, les visualisations, l’interaction
Thématiques scientifiques Outils et modèles pour la lecture active et l’interprétation de documents
audiovisuels Gestion de connaissances personnelles
évolution de modèles, documents et connaissances Modèles pour les systèmes d’information audiovisuelle
notamment web sémantique, ingénierie documentaire Perception et interaction avec l’audiovisuel
hypervidéo, handicap assistance à base de traces
34
Principes Advene : recueils
Les recueils advene contiennent tout ce qui est nécessaire à la construction de l’hypervidéo Schémas
Types d’annotations et de relations
Structure d’annotation Annotations et relations
Vues Statiques Dynamiques
Requêtes Ressources supplémentaires
Principes Advene : annotations / relations
Film
Information (tout type)
Portée temporelle
Annotation
05’43’ - 15’22 7’01’’ - 36’45 51’12’ - 59’13
A1 A2 A3
Information associée
Texte simple Son Images...
R1
Principes Advene : vues
Plans
Film
Regard Ouverture porte Haletant Entrée Nosferatu
[...] - 30:49 Regard - 30:52 Ouverture porte - 30:57 Haletant - 31:00 Entrée Nosferatu
Sous-titrage
Entrée Nosferatu
Regard Ouverture porte Haletant Entrée Nosferatu Plan Personnage
Surnaturel Harker Harker Harker Nosferatu
Ouverture porte
Table des matières (interactive)
Ligne de temps
30:49 - 30:51 30:52-30:56 30:57 – 30:59 31:00 - 31:15
Vue 1
Vue 2
Vue 3
Hypervidéos, annotations et vues
Hypervidéos Ensemble de vues présentant les annotations et la vidéo
Dans Advene Vues ad-hoc (définies par l’outil)
Ex. : une ligne de temps permet de présenter les annotations qu’on vient de poser
Vues statiques (navigateur web) Ex. : table des matières, texte + images extraites, etc.
Vues dynamiques (lecteur enrichi) Ex. : sous-titrage, remontage, etc.
Principes Advene : schémas
Schéma de description Ensemble de catégories d’analyse pertinentes au regard d’une certaine
pratique
Types d’annotations et de relations
Exemple Un schéma Structure propose les catégories Plan, Séquence, Document
On peut donc annoter un film avec des annotations décrivant les plans, les séquences et le film dans son ensemble
On peut créer une vue V1 : table des matières pour le film, et une vue V2 : navigation plan par plan
Advene aujourd’hui
Prototype Advene http://liris.cnrs.fr/advene/download.html plateforme générique open source, multiplateforme,
plusieurs années de développement maquettage de pratiques des traces !
Développements en cours Editeur de schémas, transformations, nouvelles vues
d’inscription Modèle Advene2/Cinélab : multi-flux, multi-package Nouveaux types de rendus : son, haptique, etc.
Advene aujourd’hui
Advene aujourd’hui