Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur...

49
Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l’Indexation et la Recherche par le Contenu Sémantique Membres du jury Président : M. Jean Caelen Rapporteurs : M. Bernard Mérialdo Mme. Sylvie Calabretto Examinateurs : Mme. Catherine Berrut M. Georges Quénot

Transcript of Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur...

Page 1: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

Mbarek CharhadMRIM CLIPS-IMAG

28 Novembre 2005

CLIPS-IMAG

Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l’Indexation et la Recherche par le

Contenu Sémantique

Membres du jury

Président   : M. Jean Caelen

Rapporteurs : M. Bernard MérialdoMme. Sylvie Calabretto

Examinateurs : Mme. Catherine Berrut M. Georges Quénot

Page 2: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

2

Développement de bases de documents vidéo Technologies numériques Croissance de la taille des archives Différents genres de documents

Besoins: organiser, accéder à, retrouver des documents (ou des morceaux de documents) vidéo

Journal télévisé Émission sportive Vidéosurveillance

Problématique

Page 3: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

3

Introduction (1/4)

Objectif : satisfaire le besoin en information d’un utilisateur

Correspondance

InterrogationIndexation

Recherche d’information

Collection de documents

(corpus)

Page 4: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

4

Aspects spécifiques à la vidéo Contenu multimodal (image, audio, texte) Temps Événements Interprétations multiples

Besoin pour la RI Intégrer et modéliser ces aspects

Introduction (2/4)

Page 5: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

5

Correspondance

Recherche d’information dans des documents vidéo

InterrogationIndexation

Spécifique dépendant du type du médiaExemple 1 : « les segments vidéo montrant Bill Clinton »

Exemple 2 : « les segments vidéo dans lesquels Bill Clinton parle »

Générique indépendant du type de média

Exemple 3 : « les segments vidéo décrivant une manifestation »

Représentation

Introduction (3/4)

Représentation

Annotations

Descripteurs

Segmentation

Analyse

Page 6: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

6

Signal

Descripteurs numériques

Bill Clinton, microphone

Baghdad, Kofi Anan, U.N.

Concepts

Bill Clinton devant un microphone Personne parle de Kofi Anan

Concepts + relations

Interprétations multiples

Précision

Introduction (4/4)

“….U.N. secretary general Kofi Anan smash into Baghdad is a critical opportunity to achieve the outcome that all of us would …”

Page 7: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

7

Objectifs

Représentation du contenu la multimodalité (visuel, audio et texte)

Représenter les caractéristiques temporelles et

les événements

les interprétations multiples

Intégration dans un système de recherche de vidéos Répondre à des requêtes variées

Évaluer l’apport en terme de précision

Modélisation

Page 8: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

8

Plan Problématique et contexte

État de l’art Modélisation par média Modélisation multimodale Standards

Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations

Conclusion et perspectives

Page 9: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

9

Modélisation du contenu visuel

Vidéo

« Suite de plans où l’unité de lieu est conservée »

Changement de scène [Chen & al, 01] [Lee & al, 00]

Scène

« Suite de scènes et plans où l’unité de sujet est conservée »

Séquence

« Suite d’images successives filmées sans coupure de la caméra »

Mouvement de caméra [Quénot & al, 01] [Fablet & al., 00]

Plan

État de l’art Proposition Expérimentations Conclusion Perspectives

« une image représentative du plan »

Analyse : couleur, texture, formes [Celentano & al, 02], [Etievent & al, 99 ],

Extraction des concepts : (les travaux dans TRECVID)

Contenu sémantique peu représenté

Image-clé

Page 10: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

10

Modélisation du contenu audio

Vidéo

État de l’art Proposition Expérimentations Conclusion Perspectives

Description bas niveau

Information contenue dans la parole non traitée

L2L1 L3

Séparation des caractéristiques audio [Kemp & al. 00], [Pinquier & al. 01]

Segmentation en histoires [Besacier & al. 04], (les travaux dans TRECVID)

Détection de changement de locuteur [Gauvain & al. 02]

Transcription automatique de la parole

Page 11: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

11

Modélisation du contenu texte

État de l’art Proposition Expérimentations Conclusion Perspectives

(U3W) U3 48.03 HEADLINE

(WCOM) WORLDCOM 38.30 CNN NEWS

Reconnaissance du texte dans la vidéo [Sato & al. 99]

Document : description par des métadonnées (titre, taille, auteur, …) [Hunter & al. 99]

Données texte dans la vidéo : sous-titre, télétexte, ...

Descriptions génériques

Page 12: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

12

Modélisation en strates[Chua & al. 02]

Annotation en Strates Interconnectées (IA-Strata [Prié 1999], E-SIA [Egyed-Zsigmond 03])

Modélisation du contenu multimodal

image

texte

audio

« … Bill Clinton ...»

Bill Clinton

politique

discours apparition

Politicien

État de l’art Proposition Expérimentations Conclusion Perspectives

Choix des éléments d’information Représentation avec des graphes :

relations peu représentatives

Page 13: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

13

Représentation du contenu Multimédia Archivage des documents Indexation automatique

Initiatives de normalisation Dublin Core MPEG-7

Standards

État de l’art Proposition Expérimentations Conclusion Perspectives

Page 14: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

14

Dublin Core : ensemble des 15 élémentsEnsemble d’éléments destiné à présenter des ressources du

WEB.Extension en sous-éléments permettant de créer un schéma

de description vidéo

Description par métadonnées

Dublin Core

9. Format10. Identifiant de la ressource11. Source12. Langage13. Relation14. Couverture15. Gestion des droits

État de l’art Proposition Expérimentations Conclusion Perspectives

1. Titre2. Auteur ou Créateur3. Sujet et mots-clef4. Description5. Éditeur6. Autre contributeur7. Date8. Type de ressource

Page 15: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

15

Standard pour la description du contenu d'information audiovisuelle

S’adresse à différentes applications.Fournit un cadre de description de données

audiovisuelles flexible et extensible.Définit un ensemble de méthodes et d’outils pour les

différentes phases de la description des documents multimédia.

MPEG-7

Extraction des caractéristiques Description Application

État de l’art Proposition Expérimentations Conclusion Perspectives

MPEG-7

Page 16: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

16

MPEG-7

État de l’art Proposition Expérimentations Conclusion Perspectives

Les Descripteurs (D)Syntaxe et sémantique de la représentation d’une

caractéristique

Les Schémas de Description  (SD)Structure et la sémantique des relations entre ses

composants

Un Langage de définition des descripteurs (DDL)Création de nouveaux SDs et Ds

Syntaxe basée sur les Schémas XML.

Page 17: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

17

Modélisation

Standard Description générique Pas d’uniformité de description

Bilan

Signal ConceptConcept +relation

visuel -audio -texte -

Visuel+audio+texte Peu de relations

État de l’art Proposition Expérimentations Conclusion Perspectives

Description limitée (choix des concepts et peu de relations)

Peu de sémantique par rapport au contenu de la vidéo

Ne représente pas du contenu sémantique de la vidéo Signal

Concepts

Concepts + relations

Page 18: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

18

Plan Problématique et contexte

État de l’art Modélisation par média Modélisation multimodale Standards

Proposition Modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations

Conclusion et perspectives

Page 19: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

19

Modéliser le contenu vidéo en se basant sur une description par concepts et relations

Prendre en compte l’aspect multimodalité Une représentation selon plusieurs points de

vue (facettes) du document vidéo

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Modélisation vidéo

Page 20: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

20

EMIR² [Mechkour 95] Image représentation multi-facettes Facette : un point de vue sur une image

Facettes Structurelle Spatiale Perceptive Symbolique

Modèle de baseModélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

État de l’art Proposition Expérimentations Conclusion Perspectives

Facette symbolique

Facette spatiale

Facette structurelle

image # i objet # 1

microphone

est un

homme

devant

composé de

est un

objet #2composé de

Proposition

Page 21: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

21

Définition Graphes bipartis et orientés Deux types de nœuds : concepts et relations Notation graphique

Concepts et relations organisés en treillis

Modèle opérationnel: les Graphes Conceptuels

Bill Clinton parle de Irak

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Parle de Parle

R

Homme politique

Bill Clinton

pays

Irak Saddam Hussein

C

Treillis de concepts Treillis de relations

Page 22: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

22

Avantages pour la RI Uniformité par rapport aux

composants d’un système de RI [Mechkour 95] [Ounis & Pasca 98]

Uniformité par rapport aux modalités

Précision des descriptions Fonction de correspondance :

opérateur de projection

Modèle opérationnel: les Graphes Conceptuels

Parle_de

Pays

Homme politique

g1 (requête)

Parle_de

Irak

Bill Clinton

Parle_de

Saddam Hussein

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

g2’

Parle de Parle

R

Homme politique

Bill Clinton

pays

Irak Saddam Hussein

C

g2 (document)

Page 23: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

23

État de l’art Proposition Expérimentations Conclusion PerspectivesProposition : Modélisation

multifacettes

Facette temporelle

Facette événementielle

Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média

Sous-Facette visuelle

Sous-Facette audio

Sous-Facette texte

Sous-Facette couleur

Sous-Facette texture

Sous-Facette spatiale

Sous-Facette mouvement

Facette sémantique

Facette signal

Page 24: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

24

État de l’art Proposition Expérimentations Conclusion Perspectives

Instanciation des facettes

Facette temporelle

Facette évènementielle

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

PropositionSous-Facette visuelle

Sous-Facette audio

Sous-Facette texte

Sous-Facette couleur

Sous-Facette texture

Sous-Facette spatiale

Sous-Facette mouvement

Facette sémantique

Facette signal

Page 25: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

25

La facette temporelle : Définition

Ensemble des relations temporelles qui relient les éléments d’information dans le document vidéo.

Un concept Un événement Une unité audiovisuelle (UAV)

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

UAV1 égale UAV2

UAV2 chevauche UAV1

UAV1

UAV2

UAV1

UAV2

Page 26: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

26

Les concepts : les évènements (Ev)

Les relations temporelles (RT)Les 13 relations d’Allen [Allen 83]

Graphe de base

La facette temporelle : Instanciation(1/2)

segment vidéo TEVCont.

TEV

TRT Cont.

après

TRT

avant touche pendant

personne act.

TEV

Groupe act. transport

discours manifestation rencontre accident

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 27: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

27

Exemple : « segment vidéo montrant une manifestation avant une explosion »

La facette temporelle : Instanciation(2/2)

État de l’art Proposition Expérimentations Conclusion Perspectives

segment vidéo manifestationCont.

explosion

avant Cont.

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 28: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

28

La sous-facette audio : Définition

Unité de repérage : segment audioTranscription de la parole

Un objet audio (AO) : toute information symbolique issue du contenu audio.

Extraction des concepts audio : personnes, lieux, organisations

Identification du locuteur

Man

del

a ad

mit

s

the

may

have

di

ffer

ence

s

of opin

ion

wit

h

Mr.

Cli

nto

n

but

says

the

pre

sid

ent

and

firs

t

lady

have

the

righ

t

inst

inct

s

in deal

ing

wit

h

maj

or

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 29: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

29

La sous-facette audio : Instanciation(1/2)

État de l’art Proposition Expérimentations Conclusion Perspectives

Les concepts audio (ASC)

Les relations audio Ra

Graphes de base

Parle de Parle

Ra

Segment vidéo ASC1Cont.

ASC2

TRa Cont.

(parle de)

Segment vidéo ASC1Cont. TRa (parle)

personne

lieu

espace Géographique

terre eau

continent

Pays île cité capitale

mer océan lac rivière

sexe

objet

organisation

religion économique politique

femellemâle

agent

occupation

politicien sportive acteur

people

ASC

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 30: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

30

Exemples  1. « segment vidéo dans lequel Bill Clinton parle »

2. « segment vidéo dans lequel Bill Clinton parle de l’Irak »

La sous-facette audio : Instanciation(2/2)

État de l’art Proposition Expérimentations Conclusion Perspectives

Parle de

Segment vidéo Bill ClintonCont.

IrakCont.

Segment vidéo Bill ClintonCont. parle

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 31: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

31

Unité de repérage : plan vidéo

Un objet image (IO) : toute information symbolique issue du contenu visuel.

La sous-facette visuelle : Définition

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

arbreverdureBill Clintontextemicrophone

Page 32: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

32

Les concepts Visuels (VSC)

Les relations visuelles Rv

Graphe de base

Exemple : « segment vidéo dans lequel Bill Clinton apparaît »

La sous-facette visuelle : Instanciation

État de l’art Proposition Expérimentations Conclusion Perspectives

Apparaît …..

Rv

Segment vidéo VSC1Cont. TRv

Segment vidéo Bill ClintonCont. apparaît

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

VSC

objets

animal

chien chevaux …

personne

foule people ….Combustion

feu fumée

objet fabriqué

chaise téléphone drapeau microphone Bill Clinton

scène

Page 33: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

33

Résumé

État de l’art Proposition Expérimentations Conclusion Perspectives

Modélisation multifacette Forme de représentation générique

Facette temporelle

Facette évènementielle

Forme de représentation spécifique

Facette sémantique

Facette signal

Modèle opérationnel : formalisme des graphes conceptuels

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Facette temporelle

Facette évènementielle

Forme de représentation génériqueDécrire les caractéristiques communes dans le document vidéo indépendamment du type de média

Forme de représentation SpécifiqueDécrire les caractéristiques spécifiques à chaque type de média

Sous-Facette visuelle

Sous-Facette audio

Sous-Facette

texte

Sous-Facette couleur

Sous-Facette texture

Sous-Facette spatiale

Sous-Facette mouvement

Facette sémantique

Facette signal

Page 34: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

34

Intégration

Sous-Facette audio

Parle_de

Contenu Audio

SBD

Extraction d’image-clé

Vidéo

Plan i+1

Parole dans le plan

capabe visual semantic as the visual semanticas the visual semanticas the visual semantic

Ao1 Ao2

Clinton Irak

Parle

ASR

derriereSous-factte spatiale

Io1 Io2

Clinton Drapeau USSous-Facette visuelle

Cyan, blanc, rouge

Sous-facette couleur

Sous-facette texture

rayé Uniforme

Facette signal

État de l’art Proposition Expérimentations Conclusion Perspectives

Contenu Visuel

Modélisation etInstanciation

Modèle de base

Modèle opérationnel

Instanciation des facettes

Proposition

Page 35: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

35

Problématique et contexte

État de l’art Modélisation par média Modélisation multimodale Standards

Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations

Conclusion et perspectives

Plan

Page 36: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

36

Mise en œuvre

Mise en œuvre partielle Expérimentations sur le corpus TREC Utilisation de la transcription de l’audio

(automatique) Utilisation de l’annotation collaborative

(automatique + manuelle) Relations implémentées :

Qui parle ? De quoi parle-t-on ? Qui apparaît ?

État de l’art Proposition Expérimentations Conclusion Perspectives

Page 37: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

37

Mise en œuvre du Modèle

Facette temporelle

Facette évènementielle

Sous-Facette visuelle

Sous-Facette audio

Sous-Facette texte

Sous-Facette couleur

Sous-Facette texture

Sous-Facette spatiale

Sous-Facette mouvement

Facette sémantique

Facette signal

(1) Qui parle(2) De quoi on parle

État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre

Corpus

Application (1)

Application (2)

Page 38: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

38

Corpus

Collection TRECVID 2003 120 heures de vidéo (journaux télévisés ABC et CNN),

60 heures pour l’entraînement + 60 heures pour le test. Audio : transcription fournie par le LIMSI, Visuel : annotation collaborative en utilisant l’outil

Video-Annex [Lin & al. 03] Texte : quelques résultats de ATR qui sont difficilement

exploitables

Collection TRECVID 2004 70 heures de vidéo (journaux télévisés ABC et CNN)

pour le test + la collection TRECVID 2003 pour l’entraînement

État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre

Corpus

Application (1)

Application (2)

Page 39: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

39

Segment audio

Seg. 1 Seg 2 Seg. 3 Seg. 4

transcription automatique de la parole

Seg.1Le locuteur courant est Bill Jones

Hello i’m Bill Jones … ……as ABC’s Carole Bob. - - - Thanks very much Carole Bob

Seg. 2Le locuteur suivant est Carole Bob

Seg. 4Le locuteur précédent est Carole Bob

- - -

Détection directe : Utilisation des patrons linguistiques

Détection par propagation : Utilisation de la similarité acoustique entre les segments de parole

audio pour compléter la détection

État de l’art Proposition Expérimentations Conclusion PerspectivesDétection d’identité du locuteur

Application 1 : « Savoir qui parle » [Charhad & al. 05] Principe : Analyse des Transcriptions de la Parole

Mise en oeuvre

Corpus

Application (1)

Application (2)

Page 40: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

40

Exemples de patrons linguistiques

Locuteur segment précédent

Locuteur segment courant

Locuteur segment suivant

État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre

Corpus

Application (1)

Application (2)

thank you … [name]thanks … [name][name] reportinggood morning [name] (*)

(*) at the beginning of the speech segment

[name] for ABC news[name] [place] for [ABC news | CNN]I’m [name][name] [CNN | ABC]

tonight with [name]ABC’s [name][name] reports [name] has the [latest | story] good morning [name] (*)

(*) at the end of the speech segment

Page 41: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

41

Résultats

Durée totale de vidéo 7009.0 s

Parole de « news » annotée 3677.5 s

Évaluation sur une partie de la collection TRECVID 2003

Vérité terrain : annotation manuelle de 2 heures

État de l’art Proposition Expérimentations Conclusion Perspectives Mise en oeuvre

Corpus

Application (1)

Application (2)

Prédiction Durée prédite Durée correcte

Directe 545.8 s 14.8 % 454.6 s 83.3 %

Propagation 1936.8 s 52.7 % 1595.9 s 82.4 %

Page 42: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

42

“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”

ASR

État de l’art Proposition Expérimentations Conclusion Perspectives

Extraction des concepts Principe

Analyse du contenu audio : Transcription Automatique de la Parole (ASR)

Données externes : ontologies spécifiques Patrons linguistiques

Mise en oeuvre

Corpus

Application (1)

Application (2)

Signal

“….u.n. secretary general kofi anan smash into baghdad is a critical opportunity to achieve the outcome that all of us would prefer a peaceful and principled end to this crisis the secretary general is backed by the unambiguous position of the security council saddam hussein must give the weapons inspectors full free unfettered access to all suspected sites anywhere in irak…”

Concepts

Personne

Lieu

Organisation

Page 43: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

43http://mrim.imag.fr/mdv/CLOVIS.html

CLOVIS : Présentation de l’interfaceÉtat de l’art Proposition Expérimentations Conclusion Perspectives

Page 44: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

44

Application à la recherche par concepts

État de l’art Proposition Expérimentations Conclusion Perspectives

Application sur les « topics » TRECVID 2004

Topic TRECVID 2004 Transcription CLOVIS

128. US Congressman Henry Hyde's face, whole or part, from any angle

[Henry Hyde] (parle) ou[Personne] (parle de ) [Henry Hyde]

133. Saddam Hussein[Saddam Hussein] (parle) ou

[Personne] (parle de ) [Saddam Hussein]

134. Boris Yeltsin[Boris Yeltsin] (parle) ou

[Personne] (parle de ) [Boris Yeltsin]

135. Sam Donaldson's face. No other people visible with him

[Sam Donaldson] (parle) ou[Personne] (parle de ) [Sam Donaldson]

136. Person hitting a golf ball [Personne] (parle de ) [P.G.A.]

137. Benjamin Netanyahu[Benjamin Netanyahu] (parle) ou

[Personne] (parle de ) [Benjamin Netanyahu]

Page 45: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

45

Application à la recherche par concepts

Application sur les « topics » TRECVID 2004

État de l’art Proposition Expérimentations Conclusion Perspectives

0

0,05

0,1

0,15

0,2

128 133 134 135 136 137 Moy.

IU

NTU

CLOVIS

Page 46: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

46

Plan Problématique et contexte

État de l’art Modélisation par média Modélisation multimodale Standards

Proposition modélisation vidéo Modèle opérationnel Instanciation des facettes

Expérimentations

Conclusion et perspectives

Page 47: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

47

Conclusion

État de l’art Proposition Expérimentations Conclusion Perspectives

Objectifs Conception d’un modèle de représentation du contenu vidéo Intégration : application à la recherche par le contenu

ContributionThéorique : modèle de représentation multifacette

Deux formes de représentation intégrées Modèle opérationnel : les Graphes Conceptuels (GC) Extension du modèle par des ontologies

Pratique: Implémentation (en partie) du schéma de modélisation Extraction des concepts Identification et reconnaissance des locuteurs Contenu visuel : exploitation des annotations Application à la recherche par le contenu

Page 48: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

48

Perspectives

État de l’art Proposition Expérimentations Conclusion Perspectives

Court terme Modélisation

Exploiter les résultats d’analyse visuelle (signal) Intégrer les différentes représentations

Application (Indexation et Recherche Vidéo) Compléter l’intégration du modèle dans un système de recherche

vidéo Évaluer l’apport du modèle proposé

Long terme

Utiliser des connaissances externes pour enrichir les descriptions dans le schéma de modélisation

Page 49: Mbarek Charhad MRIM CLIPS-IMAG 28 Novembre 2005 CLIPS-IMAG Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour lIndexation.

49

Merci de votre attention