Structuration spatio-temporelle de séquences...

139
N o d’ordre 03 ISAL 0089 Année 2003 Thèse Structuration spatio-temporelle de séquences vidéo Présentée devant L’Institut National des Sciences Appliquées de Lyon Pour obtenir Le grade de docteur École doctorale : École Doctorale Informatique et Information pour la Société Spécialité : Informatique Par Rémi Megret Soutenue le 17 décembre 2003 devant la Commission d’examen Jury Rapporteurs Patrick BOUTHEMY Bernard MERIALDO Examinateurs Jim CROWLEY Daniel DEMENTHON Denis PELLERIN Directeur Jean-Michel JOLION Thèse préparée au sein du Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS), INSA de Lyon.

Transcript of Structuration spatio-temporelle de séquences...

Page 1: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

No d’ordre 03 ISAL 0089 Année 2003

Thèse

Structuration spatio-temporelle de séquences vidéo

Présentée devantL’Institut National des Sciences Appliquées de Lyon

Pour obtenirLe grade de docteur

École doctorale :École Doctorale Informatique et Information pour la Société

Spécialité:Informatique

ParRémi Megret

Soutenue le 17 décembre 2003 devant la Commission d’examen

Jury

Rapporteurs Patrick BOUTHEMYBernard MERIALDO

Examinateurs Jim CROWLEYDaniel DEMENTHONDenis PELLERIN

Directeur Jean-Michel JOLION

Thèse préparée au sein du Laboratoire d’InfoRmatique en Image et Systèmes d’information(LIRIS), INSA de Lyon.

Page 2: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2

Page 3: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3

Résumé :Ce travail aborde le problème de l’extraction d’une structure spatio-temporelle au sein de

séquences vidéos, avec comme objectif une représentation qui prenne en compte l’ensemble dela séquence, tant spatialement que temporellement. Plusieurs points de vues sont proposés : lepoint de vue de l’estimation de trajectoires, le point de vue de la segmentation jointe en espaceet en temps, et une formalisation plus générale autour du concept de regroupement récursif.Le point commun des solutions que nous introduisons est de considérer des représentationsà plusieurs niveaux, par l’utilisation de structures hiérarchiques. Ces structures sont définies àpartir de primitives regroupant les pixels de façon compacte : il s’agira de primitives surfaciquesau sein d’une image, et de volumes au sein du bloc spatio-temporel que constitue la vidéo.

Le premier point de vue sépare les dimensions spatiales et le temps. Des primitives sontextraites des images et mises en correspondance temporelle pour former des trajectoires. Nousproposons pour cela l’utilisation de blobs, c’est à dire des régions de forme compacte présentantun contraste avec leur voisinage. Nous utilisons la définition de la théorie de l’espace-échelle,qui présente l’avantage de tirer parti de l’information présente à plusieurs niveaux de détaildans une image à niveaux de gris. Nous proposons une extension de celle-ci à la couleur, sur labase des histogrammes de couleur locaux, que nous relions avec d’autres méthodes non multi-échelle. Les blobs suivis forment des trajectoires, que nous segmentons par le mouvement, àl’aide d’une nouvelle méthode, permettant de prendre en compte des trajectoires de longueursvariées.

Le second point de vue considère les dimensions spatiales et temporelle de façon jointe.Nous proposons une méthode d’extraction de tubes de couleur spatio-temporels dans des blobsd’une vingtaine d’images. Elle est basée sur une classification des pixels de la séquence dans unespace de caractéristiques. L’avantage d’extraire directement des structures spatio-temporellesdu bloc vidéo est de pouvoir les comparer, moyennant un décalage temporel, ce qui fournit unemesure de la stabilité temporelle de chaque tube.

Enfin, nous proposons un modèle général permettant de caractériser les méthodes de struc-turation du bloc spatio-temporel, sur la base de deux concepts : la définition d’une structurespatio-temporelle comme un regroupement récursif des pixels de la séquence, et la décomposi-tion de toute relation spatio-temporelle en une relation synchrone et une projection temporelle.

Page 4: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4

Page 5: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

INSA DE LYONDEPARTEMENT DES ETUDES DOCTORALESeptembre 2003

Ecoles Doctorales et Diplômes d’Etudes Approfondies

habilités pour la période 1999-2003

ECOLES DOCTORALESn° code national

RESPONSABLEPRINCIPAL

CORRESPONDANTINSA

DEA INSAn° code national

RESPONSABLEDEA INSA

CHIMIE DE LYON

(Chimie, Procédés, Environnement)

EDA206

M. D. SINOUUCBL104.72.44.62.63Sec 04.72.44.62.64Fax 04.72.44.81.60

M. R. GOURDON87.53Sec 84.30Fax 87.17

Chimie Inorganique910643

Sciences et Stratégies Analytiques910634

Sciences et Techniques du Déchet910675

M. R. GOURDONTél 87.53 Fax 87.17

ECONOMIE, ESPACE ETMODELISATION DESCOMPORTEMENTS

(E2MC)

EDA417

M.A. BONNAFOUSLYON 204.72.72.64.38Sec 04.72.72.64.03Fax 04.72.72.64.48

Mme M. ZIMMERMANN60.91 Fax 87.96

Villes et Sociétés911218

Dimensions Cognitives et Modélisation992678

Mme M. ZIMMERMANNTél 60.91 Fax 87.96

M. L. FRECON Tél 82.39 Fax 85.18

ELECTRONIQUE,ELECTROTECHNIQUE,

AUTOMATIQUE

(E.E.A.)

EDA160

M. D. BARBIERINSA DE LYON85.47Fax 60.82

Automatique Industrielle910676

Dispositifs de l’Electronique Intégrée910696

Génie Electrique de Lyon910065

Images et Systèmes992254

M. M. BETEMPSTél 85.59 Fax 85.35

M. D. BARBIERTél 85.47 Fax 60.82

M. J.P. CHANTETél 87.26 Fax 85.30

Mme I. MAGNINTél 85.63 Fax 85.26

EVOLUTION, ECOSYSTEME,MICROBIOLOGIE , MODELISATION

(E2M2)

EDA403

M. J.P FLANDROISUCBL104.78.86.31.50Sec 04.78.86.31.52Fax 04.78.86.31.49

M. S. GRENIER79.88Fax 85.34

Analyse et Modélisation des Systèmes Biologiques910509

M. S. GRENIERTél 79.88 Fax 85.34

INFORMATIQUE ET INFORMATIONPOUR LA SOCIETE

(EDIIS)

EDA 407

M. L. BRUNIEINSA DE LYON87.59Fax 80.97

Documents Multimédia, Images et Systèmesd’Information Communicants

992774Extraction des Connaissances à partir des Données

992099

Informatique et Systèmes Coopératifs pourl’Entreprise

950131

M. A. FLORYTél 84.66 Fax 85.97

M. J.F. BOULICAUTTél 89.05 Fax 87.13

M. A. GUINETTél 85.94 Fax 85.38

INTERDISCIPLINAIRE SCIENCES-SANTE

(EDISS)

EDA205

M. A.J. COZZONEUCBL104.72.72.26.72Sec 04.72.72.26.75Fax 04.72.72.26.01

M. M. LAGARDE82.40 Fax 85.24

Biochimie930032

M. M. LAGARDETél 82.40 Fax 85.24

MATERIAUX DE LYON

UNIVERSITE LYON 1

EDA 034

M. J. JOSEPHECL04.72.18.62.44Sec 04.72.18.62.51Fax 04.72.18.60.90

M. J.M. PELLETIER83.18Fax 85.28

Génie des Matériaux : Microstructure, ComportementMécanique, Durabilité

910527

Matériaux Polymères et Composites910607

____________________________________________Matière Condensée, Surfaces et Interfaces

910577

M. J.M.PELLETIERTél 83.18 Fax 85.28

M. H. SAUTEREAUTél 81.78 Fax 85.27

M. G. GUILLOTTél 81.61 Fax 85.31

MATHEMATIQUES ETINFORMATIQUE FONDAMENTALE

(Math IF)

EDA 409

M. F. WAGNERUCBL104.72.43.27.86Fax 04.72.43.00.35

M. J. POUSIN88.36Fax 85.29

Analyse Numérique, Equations aux dérivées partielleset Calcul Scientifique

910281

M. G. BAYADATél 83.12 Fax 85.29

MECANIQUE, ENERGETIQUE, GENIECIVIL, ACOUSTIQUE

(MEGA)

EDA162

M. F. SIDOROFFECL04.72.18.61.56Sec 04.72.18.61.60Fax 04.78.64.71.45

M. G.DALMAZ83.03Fax 04.72.89.09.80

Acoustique910016

Génie Civil992610

Génie Mécanique992111

Thermique et Energétique910018

M. J.L. GUYADERTél 80.80 Fax 87.12

M. J.J.ROUXTél 84.60 Fax 85.22

M. G. DALMAZTél 83.03Fax 04.78.89.09.80

M. J. F. SACADURATél 81.53 Fax 88.11

En grisé : Les Ecoles doctorales et DEA dont l’INSA est établissement principal

Page 6: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Septembre 2003

INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON

Directeur : STORCK A.

Professeurs :AUDISIO S. PHYSICOCHIMIE INDUSTRIELLEBABOT D. CONT. NON DESTR. PAR RAYONNEMENTS IONISANTSBABOUX J.C. GEMPPM***BALLAND B. PHYSIQUE DE LA MATIEREBAPTISTE P. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERSBARBIER D. PHYSIQUE DE LA MATIEREBASTIDE J.P. LAEPSI****BAYADA G. MECANIQUE DES CONTACTSBENADDA B. LAEPSI****BETEMPS M. AUTOMATIQUE INDUSTRIELLEBIENNIER F. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERSBLANCHARD J.M. LAEPSI****BOISSON C. VIBRATIONS-ACOUSTIQUEBOIVIN M. (Prof. émérite) MECANIQUE DES SOLIDESBOTTA H. UNITE DE RECHERCHE EN GENIE CIVIL - Développement UrbainBOTTA-ZIMMERMANN M. (Mme) UNITE DE RECHERCHE EN GENIE CIVIL - Développement UrbainBOULAYE G. (Prof. émérite) INFORMATIQUEBOYER J.C. MECANIQUE DES SOLIDESBRAU J. CENTRE DE THERMIQUE DE LYON - Thermique du bâtimentBREMOND G. PHYSIQUE DE LA MATIEREBRISSAUD M. GENIE ELECTRIQUE ET FERROELECTRICITEBRUNET M. MECANIQUE DES SOLIDESBRUNIE L. INGENIERIE DES SYSTEMES D’INFORMATIONBUREAU J.C. CEGELY*CAVAILLE J.Y. GEMPPM***CHANTE J.P. CEGELY*- Composants de puissance et applicationsCHOCAT B. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaineCOMBESCURE A. MECANIQUE DES CONTACTSCOUSIN M. UNITE DE RECHERCHE EN GENIE CIVIL - StructuresDAUMAS F. (Mme) CENTRE DE THERMIQUE DE LYON - Energétique et ThermiqueDOUTHEAU A. CHIMIE ORGANIQUEDUFOUR R. MECANIQUE DES STRUCTURESDUPUY J.C. PHYSIQUE DE LA MATIEREEMPTOZ H. RECONNAISSANCE DE FORMES ET VISIONESNOUF C. GEMPPM***EYRAUD L. (Prof. émérite) GENIE ELECTRIQUE ET FERROELECTRICITEFANTOZZI G. GEMPPM***FAVREL J. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERSFAYARD J.M. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONSFAYET M. MECANIQUE DES SOLIDESFERRARIS-BESSO G. MECANIQUE DES STRUCTURESFLAMAND L. MECANIQUE DES CONTACTSFLORY A. INGENIERIE DES SYSTEMES D’INFORMATIONSFOUGERES R. GEMPPM***FOUQUET F. GEMPPM***FRECON L. REGROUPEMENT DES ENSEIGNANTS CHERCHEURS ISOLESGERARD J.F. INGENIERIE DES MATERIAUX POLYMERESGERMAIN P. LAEPSI****GIMENEZ G. CREATIS**GOBIN P.F. (Prof. émérite) GEMPPM***GONNARD P. GENIE ELECTRIQUE ET FERROELECTRICITEGONTRAND M. PHYSIQUE DE LA MATIEREGOUTTE R. (Prof. émérite) CREATIS**GOUJON L. GEMPPM***GOURDON R. LAEPSI****.GRANGE G. GENIE ELECTRIQUE ET FERROELECTRICITEGUENIN G. GEMPPM***GUICHARDANT M. BIOCHIMIE ET PHARMACOLOGIEGUILLOT G. PHYSIQUE DE LA MATIEREGUINET A. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERSGUYADER J.L. VIBRATIONS-ACOUSTIQUEGUYOMAR D. GENIE ELECTRIQUE ET FERROELECTRICITEHEIBIG A. MATHEMATIQUE APPLIQUEES DE LYONJACQUET-RICHARDET G. MECANIQUE DES STRUCTURESJAYET Y. GEMPPM***JOLION J.M. RECONNAISSANCE DE FORMES ET VISIONJULLIEN J.F. UNITE DE RECHERCHE EN GENIE CIVIL - StructuresJUTARD A. (Prof. émérite) AUTOMATIQUE INDUSTRIELLEKASTNER R. UNITE DE RECHERCHE EN GENIE CIVIL - GéotechniqueKOULOUMDJIAN J. INGENIERIE DES SYSTEMES D’INFORMATIONLAGARDE M. BIOCHIMIE ET PHARMACOLOGIELALANNE M. (Prof. émérite) MECANIQUE DES STRUCTURESLALLEMAND A. CENTRE DE THERMIQUE DE LYON - Energétique et thermiqueLALLEMAND M. (Mme) CENTRE DE THERMIQUE DE LYON - Energétique et thermiqueLAUGIER A. PHYSIQUE DE LA MATIERE

Page 7: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Septembre 2003

LAUGIER C. BIOCHIMIE ET PHARMACOLOGIELAURINI R. INFORMATIQUE EN IMAGE ET SYSTEMES D’INFORMATIONLEJEUNE P. UNITE MICROBIOLOGIE ET GENETIQUELUBRECHT A. MECANIQUE DES CONTACTSMASSARD N. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITEMAZILLE H. PHYSICOCHIMIE INDUSTRIELLEMERLE P. GEMPPM***MERLIN J. GEMPPM***MIGNOTTE A. (Mle) INGENIERIE, INFORMATIQUE INDUSTRIELLEMILLET J.P. PHYSICOCHIMIE INDUSTRIELLEMIRAMOND M. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaineMOREL R. MECANIQUE DES FLUIDES ET D’ACOUSTIQUESMOSZKOWICZ P. LAEPSI****NARDON P. (Prof. émérite) BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONSNIEL E. AUTOMATIQUE INDUSTRIELLENORTIER P. DREPODET C. CREATIS**OTTERBEIN M. (Prof. émérite) LAEPSI****PARIZET E. VIBRATIONS-ACOUSTIQUEPASCAULT J.P. INGENIERIE DES MATERIAUX POLYMERESPAVIC G. VIBRATIONS-ACOUSTIQUEPELLETIER J.M. GEMPPM***PERA J. UNITE DE RECHERCHE EN GENIE CIVIL - MatériauxPERRIAT P. GEMPPM***PERRIN J. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITEPINARD P. (Prof. émérite) PHYSIQUE DE LA MATIEREPINON J.M. INGENIERIE DES SYSTEMES D’INFORMATIONPONCET A. PHYSIQUE DE LA MATIEREPOUSIN J. MODELISATION MATHEMATIQUE ET CALCUL SCIENTIFIQUEPREVOT P. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITEPROST R. CREATIS**RAYNAUD M. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et MatériauxREDARCE H. AUTOMATIQUE INDUSTRIELLERETIF J-M. CEGELY*REYNOUARD J.M. UNITE DE RECHERCHE EN GENIE CIVIL - StructuresRIGAL J.F. MECANIQUE DES SOLIDESRIEUTORD E. (Prof. émérite) MECANIQUE DES FLUIDESROBERT-BAUDOUY J. (Mme) (Prof. émérite) GENETIQUE MOLECULAIRE DES MICROORGANISMESROUBY D. GEMPPM***ROUX J.J. CENTRE DE THERMIQUE DE LYON – Thermique de l’HabitatRUBEL P. INGENIERIE DES SYSTEMES D’INFORMATIONSACADURA J.F. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et MatériauxSAUTEREAU H. INGENIERIE DES MATERIAUX POLYMERESSCAVARDA S. AUTOMATIQUE INDUSTRIELLESOUIFI A. PHYSIQUE DE LA MATIERESOUROUILLE J.L. INGENIERIE INFORMATIQUE INDUSTRIELLETHOMASSET D. AUTOMATIQUE INDUSTRIELLETHUDEROZ C. ESCHIL – Equipe Sciences Humaines de l’Insa de LyonUBEDA S. CENTRE D’INNOV. EN TELECOM ET INTEGRATION DE SERVICESVELEX P. MECANIQUE DES CONTACTSVIGIER G. GEMPPM***VINCENT A. GEMPPM***VRAY D. CREATIS**VUILLERMOZ P.L. (Prof. émérite) PHYSIQUE DE LA MATIERE

Directeurs de recherche C.N.R.S. :BERTHIER Y. MECANIQUE DES CONTACTSCONDEMINE G. UNITE MICROBIOLOGIE ET GENETIQUECOTTE-PATAT N. (Mme) UNITE MICROBIOLOGIE ET GENETIQUEESCUDIE D. (Mme) CENTRE DE THERMIQUE DE LYONFRANCIOSI P. GEMPPM***MANDRAND M.A. (Mme) UNITE MICROBIOLOGIE ET GENETIQUEPOUSIN G. BIOLOGIE ET PHARMACOLOGIEROCHE A. INGENIERIE DES MATERIAUX POLYMERESSEGUELA A. GEMPPM***VERGNE P. LaMcos

Directeurs de recherche I.N.R.A. :FEBVAY G. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONSGRENIER S. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONSRAHBE Y. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS

Directeurs de recherche I.N.S.E.R.M. :PRIGENT A.F. (Mme) BIOLOGIE ET PHARMACOLOGIEMAGNIN I. (Mme) CREATIS**

* CEGELY CENTRE DE GENIE ELECTRIQUE DE LYON** CREATIS CENTRE DE RECHERCHE ET D’APPLICATIONS EN TRAITEMENT DE L’IMAGE ET DU SIGNAL ***GEMPPM GROUPE D'ETUDE METALLURGIE PHYSIQUE ET PHYSIQUE DES MATERIAUX****LAEPSI LABORATOIRE D’ANALYSE ENVIRONNEMENTALE DES PROCEDES ET SYSTEMES INDUSTRIELS

Page 8: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

8

Page 9: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

9

Remerciements

J’adresse mes sincères remerciements à mon Directeur de Thèse, M. Jean-Michel Jolion,pour m’avoir fait connaître il y a quelques années le domaine de l’analyse d’images, domaineque je n’ai plus quitté depuis. Qu’il soit aussi remercié pour son aide et ses remarques de fondtout au long de ce travail exploratoire, ainsi que pour la confiance qu’il m’a témoigné quand audéroulement et à l’organisation de mes recherches.

Mes remerciements vont également à M. Daniel DeMenthon, qui a accepté de m’accueillirpendant 6 mois dans son équipe à l’Université du Maryland, et me fait l’honneur de participer auJury de soutenance. J’ai ainsi pu découvrir un autre laboratoire et d’autre sujets de recherche.Nos discussions m’ont beaucoup apporté, j’espère que cette collaboration fructueuse pourracontinuer. Je tiens aussi à rendre hommage à l’hospitalité dont il a fait preuve envers moi lorsde mon arrivée aux Etats-Unis.

Je suis particulièrement sensible à l’intérêt que MM. Patrick Bouthemy, et Bernard Me-rialdo ont porté à ce travail, en me faisant l’honneur d’accepter la charge de rapporteurs. Je suistrès reconnaissant à MM. Jim Crowley et Denis Pellerin d’avoir examiné ce travail et d’avoirparticipé au Jury de soutenance. À tous, je leur adresse mes sincères remerciements.

Merci aux collègues de l’équipe LIRIS du Bâtiment Jules Verne. Vous avez chacun à votremanière contribué à une bonne ambiance, par les discussions techniques aussi bien que philo-sophiques, parfois enflammées, que nous avons eu à la pause ou de façon plus impromptues.

Enfin, je remercie mes parents et mes amis, qui ont été présents pendant ces trois années.Leur soutien m’a beaucoup aidé personnellement pour pouvoir mener ce travail à son terme.

Page 10: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

10

Page 11: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Table des matières

1 Introduction 131.1 Motivation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1.1 Contenu visuel d’une vidéo. . . . . . . . . . . . . . . . . . . . . . . 131.1.2 Interprétation des structures. . . . . . . . . . . . . . . . . . . . . . . 141.1.3 Définition de structure spatio-temporelle. . . . . . . . . . . . . . . . . 151.1.4 Primitives spatio-temporelles. . . . . . . . . . . . . . . . . . . . . . . 161.1.5 Extraction des structures à partir du signal. . . . . . . . . . . . . . . . 16

1.2 Approche proposée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Primitives spatiales 192.1 Espace-échelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1 Vue générale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.2 Mise en oeuvre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2 Taches de couleur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.1 Taches de couleur dans la littérature. . . . . . . . . . . . . . . . . . . 252.2.2 Espace-échelle de niveaux de gris à partir d’images en couleurs. . . . 282.2.3 Espaces-échelles de distributions de positions et couleurs. . . . . . . . 32

2.3 Classification par recherche de modes. . . . . . . . . . . . . . . . . . . . . . 352.3.1 Modes d’une distribution par «mean-shift» . . . . . . . . . . . . . . . 352.3.2 Classification hiérarchique en positions et couleurs. . . . . . . . . . . 392.3.3 Mise en oeuvre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4 Manipulation d’un dendrogramme. . . . . . . . . . . . . . . . . . . . . . . . 462.4.1 Formalisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.4.2 «Top-level» : Simplification à un seul niveau. . . . . . . . . . . . . . 462.4.3 «Longest-lifetime-first» . . . . . . . . . . . . . . . . . . . . . . . . . 472.4.4 Simplification multi-niveaux. . . . . . . . . . . . . . . . . . . . . . . 482.4.5 Exemples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Création et utilisation de trajectoires 533.1 Estimation de trajectoires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2 Suivi temporel de taches de couleur. . . . . . . . . . . . . . . . . . . . . . . 54

3.2.1 Caractéristiques des taches. . . . . . . . . . . . . . . . . . . . . . . . 543.2.2 Analyse qualitative de la stabilité. . . . . . . . . . . . . . . . . . . . 553.2.3 Modèle de suivi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3 Regroupement de trajectoires par le mouvement. . . . . . . . . . . . . . . . . 623.3.1 Segmentation par classification. . . . . . . . . . . . . . . . . . . . . . 623.3.2 Segmentation par modèles paramétriques explicites. . . . . . . . . . . 64

11

Page 12: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

12 TABLE DES MATIÈRES

3.4 Regroupement de trajectoires de longueurs variées. . . . . . . . . . . . . . . 663.4.1 Discussion sur les approches précédentes. . . . . . . . . . . . . . . . 663.4.2 Analyse par fenêtres. . . . . . . . . . . . . . . . . . . . . . . . . . . 693.4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 763.4.4 Extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4 Segmentation du bloc spatio-temporel 834.1 Approches spatiales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.1.1 Segmentation spatiale par le mouvement. . . . . . . . . . . . . . . . . 844.1.2 Cohérence temporelle. . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.2 Segmentation dans le domaine joint spatio-temporel. . . . . . . . . . . . . . . 914.2.1 Segmentation de graphes. . . . . . . . . . . . . . . . . . . . . . . . . 914.2.2 Modélisation paramétrique du bloc vidéo. . . . . . . . . . . . . . . . 93

4.3 Tubes de couleur spatio-temporels. . . . . . . . . . . . . . . . . . . . . . . . 944.3.1 Modèle de tube. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3.2 Extraction des tubes. . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3.3 Comparaison avec les autres méthodes. . . . . . . . . . . . . . . . . . 98

4.4 Analyse expérimentale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1004.4.1 Illustration des résultats. . . . . . . . . . . . . . . . . . . . . . . . .1004.4.2 Analyse qualitative de la qualité des tubes. . . . . . . . . . . . . . . . 1004.4.3 Liens temporels entre primitives. . . . . . . . . . . . . . . . . . . . .1044.4.4 Analyse quantitative de la stabilité temporelle. . . . . . . . . . . . . . 1064.4.5 Commentaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109

5 Réseau spatio-temporel de primitives 1135.1 Cadre à la structuration spatio-temporelle. . . . . . . . . . . . . . . . . . . . 113

5.1.1 Lien vers l’organisation perceptuelle. . . . . . . . . . . . . . . . . . . 1135.1.2 Structures spatio-temporelles par regroupement. . . . . . . . . . . . . 114

5.2 Relations spatio-temporelles entre structures. . . . . . . . . . . . . . . . . . . 1155.2.1 Relations synchrones. . . . . . . . . . . . . . . . . . . . . . . . . . .1185.2.2 Relations asynchrones. . . . . . . . . . . . . . . . . . . . . . . . . .1195.2.3 Synchronisme et regroupements. . . . . . . . . . . . . . . . . . . . .120

5.3 Adaptation de structures existantes. . . . . . . . . . . . . . . . . . . . . . . .1235.3.1 Formalisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1235.3.2 Dilemme de l’adaptation. . . . . . . . . . . . . . . . . . . . . . . . .124

5.4 Continuité temporelle et inclusion. . . . . . . . . . . . . . . . . . . . . . . .1265.5 Récapitulatif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .128

6 Conclusion 129

Page 13: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 1

Introduction

1.1 Motivation

1.1.1 Contenu visuel d’une vidéo

Une manière naturelle pour l’homme de décrire le contenu visuel d’une vidéo est de décom-poser celle-ci en entités visibles. Les entités manipulées familièrement par les humains sontdes objets de nature sémantique, car ceux-ci nomment une partie d’une image (et par consé-quent d’une vidéo) d’après son correspondant dans le monde réel : une main, une voiture, unarbre, une branche... Ceci requiert l’interprétation de la scène, qui est elle-même sujette à toutesles variations associées à une évaluation subjective (polysémie des images). Deux personnespeuvent définir les objets différemment, selon leur objectifs ou cultures personnelles. La naturedes objets recherchés s’inscrit donc dans un espace sémantique linguistique très riche, ambiguet subjectif. En outre, étant donné un type d’objet particulier, celui-ci peut apparaître dans uneimage sous des aspects visuels très variables.

Les méthodes automatiques ne peuvent, quant à elles, être basées que sur des critères concretset mesurables. Il est donc nécessaire d’expliciter un modèle objectif qui permet de déterminer,à partir de données numériques sans signification, si un objet est présent dans une image, sousquelle forme, et à quelle position. Ceci n’est possible que dans des contextes restreints, où lesinterprétations possibles sont réduites, et où l’homme peut définir à l’avance les modèles utili-sés. Ils proposent en fait des descriptions objectives d’objets sémantiques d’intérêt spécifique.Ces descriptions ne sont valides que moyennant un ensemble d’hypothèses qui définissent lecontexte d’utilisation.

Par exemple, pour la détection des visages, Yang et al. [82] classent les méthodes existantesen plusieurs catégories. Les méthodes basées sur des invariants recherchent des caractéristiquestelles que des contours formant des parties du visage, ou des couleurs caractéristiques de lapeau, supposés être typiques des visages. Les méthodes basées sur des modèles ou sur l’appa-rence recherchent une bonne corrélation entre une partie de l’image et des modèles, qui peuventéventuellement avoir été appris. Dans l’ensemble, chacune des méthodes a un comportementparticulier vis à vis des difficultés telles que les occultations, le changement d’orientation oud’éclairement, mais repose toujours sur l’extraction de critères mesurables à partir des images.

Dans les cas où l’on ne désire pas se limiter à des types d’objets particuliers, on utilise plutôtdes descripteurs pré-attentifs : la couleur, la texture, les contours, le mouvement. Ils sont ditspré-attentifs, car extraits du signal sans être guidés par un processus descendant (attentif). Ilssont donc notamment non sémantiques, pour la raison qu’ils ne sont pas manipulés naturelle-ment comme unité de sens.

13

Page 14: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

14 CHAPITRE 1. INTRODUCTION

La distinction entre sémantique et non-sémantique se révèle cependant subjective, et liéeaux attentes de la personne qui visionne ou analyse une image ou une vidéo. On pourrait ainsipar exemple associer une interprétation sémantique arbitraire aux zones issues d’une segmen-tation sur la couleur sous la forme de "zones homogènes au sens de la couleur", mais une telleapproche apporterait surtout de la confusion. Il est préférable de conserver au niveau séman-tique un lien avec l’interprétation de la scène. Dans [11], Castagno et al., font ainsi la différenceentre une région homogène et un objet : une région est une zone de l’image qui est homogènepour un critère quantitatif donné, alors qu’un objet est une entité de la scène qui est dépendanted’une interprétation sémantique dans le monde réel.

1.1.2 Interprétation des structures

Voyons à présent comment interpréter le lien entre les objets et les descripteurs, à traversune modélisation du processus d’acquisition et du processus de perception.

Modélisation géométrique par surfaces opaques

Dans une modélisation du processus physique d’enregistrement d’une vidéo par une caméra,on considère en entrée une scène matérielle dans l’espace 3D, et en sortie la vidéo sous la formed’une séquence d’images 2D. Nous considérons pour le moment la modélisation mathématique,pour laquelle les points sont sans dimension, qu’il s’agisse des points physiques de la scène, oude leurs projections sur le plan image.

La scène est modélisée par un ensemble de surfaces opaques se déplaçant et se déformantdans l’espace. Chaque point d’une image peut être associé à un point matériel de la scène qui adonné lieu à l’image. Cette association est univoque, grâce à l’opacité des surfaces. La géomé-trie projective propre au modèle de caméra définit les relations géométriques entre ces différentspoints [27]. Le déplacement du point matériel avec le temps est lié au déplacement du point cor-respondant dans l’image. Le point matériel n’est pas nécessairement visible à tout instant, cequi occasionne des apparitions et des disparitions dans l’image. Pour chaque point matériel(identifié éventuellement par l’intermédiaire de l’un de ses correspondants dans une image) onpeut ainsi tracer une trajectoire spatio-temporelle dans l’espace du bloc vidéo, qui correspondà l’ensemble des points associés dans les images. Cette trajectoire présente d’éventuelles inter-ruptions pour les moments où le point n’est pas visible.

Lors de l’analyse d’une vidéo, les hypothèses sur les propriétés géométriques des objetsconcernent les déformations et les déplacements des points matériels. La rigidité dans l’espace3D et la limitation des vitesses de déplacement sont des hypothèses courantes.

Modélisation physique de l’apparence des surfaces

Au modèle géométrique se superpose la modélisation des propriétés visuelles physiques dela surface. À chaque point de la surface est associée une caractéristique d’apparence, telle que lacouleur ou la radiosité. Lorsque l’objet se déplace, le point matériel conserve ses propriétés, quifont varier l’apparence mesurée au capteur en fonction du contexte d’éclairage et d’orientationde la surface.

Les contraintes sur les propriétés de la surface restreignent les possibilités d’apparence dechaque point 3D dans l’image. Ainsi l’hypothèse d’invariance de la couleur suppose que le pointde l’image associé à un même point matériel gardera la même couleur dans le temps. Des mo-dèles physiques tels que le modèle Lambertien prennent en compte les propriétés intrinsèquesde la surface, mais aussi les conditions d’éclairage.

Page 15: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

1.1. MOTIVATION 15

Point de vue perceptuel

La modélisation par surfaces opaques met l’accent sur un modèle de la scène tridimen-sionnelle d’origine. Lors de l’analyse d’une vidéo, nous n’avons accès qu’à l’observation del’apparence de cette scène. Les hypothèses utilisées permettent de faciliter le problème malposé de reconstruction de la scène, en posant des contraintes sur les propriétés intrinsèques desobjets de la scène. Ces contraintes apparaissent alors comme desa priori sur l’interprétation ducontenu de la vidéo en terme de surfaces.

Les contraintes sont ainsi constituantes des structures que l’on peut détecter dans une vidéo.La modélisation par surfaces opaques n’est pas forcément adaptée à tout contenu vidéo. Ainsi,la présence de logos ajoutés à la post-production, ou des objets tel que le ciel bleu ne rentrentpas à proprement parler dans une modélisation géométrique 3D d’une scène, mais possèdentnéanmoins une réalité perceptuelle. La validité d’un modèle ne se mesure pas forcément à sacapacité de reproduction du monde tel qu’il est, mais à sa capacité de permettre le contrôle desactions avec ce monde. Ainsi, nous ne mémorisons sûrement pas la totalité de chaque particulede notre corps, mais nous le contrôlons. De même, un bon modèle du monde extérieur est celuiqui permet d’y évoluer.

Les propriétés perceptuellement sensibles ont été formalisées par les théoriciens du Gestalt,qui ont cherché à cataloguer celles utiles à l’analyse perceptuelle du monde, telles que la sy-métrie, la continuité, la proximité, la similarité, etc... La granularité de l’analyse se déplace dupixel vers les structures qui sont définies par les sous-ensembles de la scène qui valident unepropriété perceptuelle.

Ensuite, on peut faire un pont entre ces entités perceptuelles et les entités du monde réel[61], grâce à l’hypothèse de non accidentalité, qui postule que, lorsqu’une organisation parti-culièrement peu probable est détectée, cela correspond certainement à une propriété analoguedans la scène. Ce lien entre entité perceptuelle et entité réelle est fondamental car il permet defaire des inférences sur le monde réel à partir des observations. Il permet aussi de fournir un ni-veau de structuration plus complexe que celui du pixel, trop pauvre pour exhiber des propriétéscaractéristiques. Les entités perceptuelles sont donc d’un intérêt particulier pour la structuration.

1.1.3 Définition de structure spatio-temporelle

Avant de rentrer plus dans le détail de l’extraction des structures spatio-temporelles à partirdu signal vidéo, précisons ce que nous entendons par une telle structure.

Dans une vidéo, les dimensions spatiales et temporelles sont complémentaires. On peutconsidérer uniquement la dimension spatiale, en analysant une image à un instant donné, et ou-bliant ainsi l’aspect dynamique d’une vidéo. On peut aussi considérer uniquement la dimensiontemporelle, en définissant une structure temporelle en plans ou scènes.

L’analyse spatiale d’une vidéo repose sur notre interprétation de la scène en objets visiblesque l’on peut désigner sur une image fixe. La dimension temporelle intervient alors sous laforme d’une modification du contenu de ces images. Un tel cadre permet de définir une structurespatio-temporelle de la façon suivante :

Définition 1 Unestructure spatio-temporelleest une structure spatiale qui évolue dans le temps.

La modélisation géométrique de la scène nous a montré une autre approche, basée sur lestrajectoires des points images associés aux points matériels. Dans ce contexte, la structure debase est la correspondance temporelle entre points images. Bien qu’étant déjà spatio-temporelle,sa complexité spatiale est relativement réduite. Une structure plus élaborée peut être formée

Page 16: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

16 CHAPITRE 1. INTRODUCTION

en organisant plusieurs trajectoires, ce qui donne une nouvelle définition de structure spatio-temporelle :

Définition 2 Unestructure spatio-temporelleest un ensemble de liens temporels organisés spa-tialement.

Les structures spatiales sonta priori de type arbitraire. Ainsi, il est possible de définirdes modèles spécifiques et complexes, pour la localisation spatiale d’objets de forme paramé-trée, tels que des pièces mécaniques ou des visages. Inversement, l’approche par segmentationconsiste à désigner l’étendue d’un objet sur une image, sous la forme d’une région de l’image.

L’évolution temporelle enregistre les modifications des paramètres du modèle au cours dutemps, ou la modification de l’étendue spatiale de l’objet dans l’image. Ce modèle peut êtrecomplexe, enregistrant les paramètres spatiaux à chaque instant de la séquence, ou bien se sim-plifier à seulement quelques paramètres résumant l’aspect général de l’évolution. À la limite, lemodèle temporel peut être vide, ce qui ramène à une structure purement spatiale.

1.1.4 Primitives spatio-temporelles

Afin de rendre la notion de structure spatio-temporelle plus maniable, considérons un pro-cessus de construction de celle-ci à partir de structures simples : les primitives spatio-temporelles.Le regroupement d’un ensemble de primitives spatio-temporelles permet de former une struc-ture spatio-temporelle plus complexe, qui peut à son tour donner lieu à de nouvelles structures.Une telle construction possède quelque analogie avec la modélisation d’objets 3D par compo-sition de géons, proposée par Biederman [6]. Une différence notable concerne le contexte danslequel sont définies les structures, qui possèdent dans notre cas deux types de dimensions, l’es-pace et le temps, là où la modélisation d’objets 3D ne possède que l’espace. Nous différencionsdonc les compositions spatiales des compositions temporelles.

La figure1.1 représente une famille de primitives classées selon leurs complexités tempo-relle et spatiale. La complexité spatiale indique la quantité d’information nécessaire pour coderune tranche spatiale du support : elle est faible pour une forme paramétrique, et importantepour une région quelconque. La complexité temporelle indique la quantité d’information néces-saire pour coder l’évolution temporelle des tranches spatiales : elle est nulle pour une primitiveuniquement spatiale, et importante pour des évolutions temporelles quelconques.

1.1.5 Extraction des structures à partir du signal

Approches spatiales ou temporelles Gardant les deux axes de complexité spatiale et tem-porelle, nous proposons la classification des méthodes d’analyse de vidéos, qui se distinguentpar la priorité qu’elles donnent aux structures spatiales ou temporelles. La figure1.2représentesous une forme condensée leurs positionnements par rapport à ces deux types de structures.

Les approches par segmentation spatiale privilégient une structure spatiale sous la formed’une segmentation de l’image, qui est ensuite étendue temporellement image par image. L’ac-cent est mis sur la labélisation des pixels de chaque image, en se fondant sur les caractéris-tiques associées aux pixels de cette image, et aux informations sur la labélisation des imagesprécédentes. Les modèles associés sont spatiaux, et utilisent peu d’information temporelle. Lastructure temporelle est obtenue ensuite, par propagation d’image à image.

Les approches jointes spatiale et temporelle obtiennent directement la segmentation despixels du bloc spatio-temporel, en prenant en compte simultanément les caractéristiques images

Page 17: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

1.1. MOTIVATION 17

cons

tant

mou

vem

ent

mou

vem

ent

varia

ble trajectoire

point + axe ST cylindre

trajectoire épaisse

cylindre de base complexe

région déformable

groupes temporels groupes spatio−temporels

inst

anta

simple

point

complexelocal

complexité spatiale

com

ple

xité

tem

po

relle

blob région quelconque

groupes spatiaux

FIG. 1.1 – Classification des primitives spatio-temporelles selon les complexités spatiales ettemporelles.

trajectoires deprimitives fiables

primitivesspatiales

caractéristiquesimages

local

séqu

ence

inst

anta

suiv

i

’densification’

approche par suivi

regroupement parle mouvement classes de

trajectoires

segmentation spatiale et temporelle jointe

approche par segmentation

segmentation 2Ddes images

prop

agat

ion

tem

pore

lleou

mis

e en

cor

resp

onda

nce

segmentation 2D+tde la séquence

segmentation spatiale

structure spatiale

regionsgroupes de primitives

éten

du

e te

mp

ore

lle

FIG. 1.2 – Schéma général d’organisation des méthodes de structuration spatio-temporelle se-lon les axes spatiaux et temporels. Les primitives spatiales instantanées peuvent être des pointsd’intérêt, des contours ou des taches de couleur. Les caractéristiques images sont des descrip-teurs pré-attentifs du signal image, tels que la couleur, la texture, ou le mouvement instantanéestimé sur un nombre peu important d’images.

Page 18: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

18 CHAPITRE 1. INTRODUCTION

des pixels de l’ensemble du bloc. Les modèles associés rendent compte de façon jointe desstructures spatiales et temporelles.

Les approches par suivi privilégient la création de trajectoires, qui se basent sur les pri-mitives spatiales plus simples, produisant ainsi des trajectoires. Une deuxième structurationspatiale a lieu lors du regroupement des trajectoires par le mouvement. L’évolution temporelleest ainsi extraite avant une éventuelle organisation spatiale globale.

1.2 Approche proposée

Notre objectif consiste à réfléchir aux moyens d’obtenir une représentation spatio-temporelleglobale d’une séquence, c’est à dire qui prenne en compte l’ensemble de la séquence aussi bientemporellement que spatialement, et qui soit adaptée aux données perceptuelles de la vidéo. Enterme spatial, il s’agit de rendre compte de l’organisation visuelle des images de la séquence.En terme temporel, la représentation doit être cohérente avec les éventuels déplacements, dé-formations et occultations qui peuvent avoir lieu dans la séquence. L’objectif de globalité s’ac-compagne aussi d’un souci de généralité des concepts proposés.

Notre approche consiste à privilégier des structures simples, telles que les primitives spatio-temporelles que nous avons évoquées. Nous étudierons plusieurs façon de les extraire de lavidéo et de les organiser, tant du point de vue spatial que temporel. Il ne s’agira pas d’aboutirà un résultat définitif dans un contexte particulier, mais de contribuer à une meilleure compré-hension des concepts sous-jacents à la notion de structuration spatio-temporelle, par l’étudede plusieurs approches du problème. Les résultats présentés auront un rôle d’illustration desconcepts introduits dans ce travail.

Le chapitre2 explorera la définition de primitives spatiales dans des images en couleurs,sous la forme de taches de couleur («blobs»). Le chapitre3 prendra appui sur ces primitivesdans une approche par suivi et étudiera la segmentation par le mouvement des trajectoires ob-tenues dans le cadre de séquences audiovisuelles. Le chapitre4 examinera l’approche par seg-mentation spatio-temporelle, avec notamment l’introduction d’une méthode d’extraction directede tubes spatio-temporels. Enfin, le chapitre5 proposera un cadre théorique à la construction destructures spatio-temporelles permettant d’unifier les méthodes proposées.

Page 19: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 2

Primitives spatiales

Notre étude s’oriente vers des représentations surfaciques (régions), par opposition à desreprésentations linéïques (contours, lignes...) ou ponctuelles (points d’intérêt), afin de pouvoirrapprocher celles-ci des pixels de l’image. En effet, une région a un lien naturel dense avec lespixels de l’image. L’association des pixels aux deux autres types de représentations concerneseulement des parties spécifiques de l’image, ou alors requiert la définition de zones d’influencequi ne sont pas présentes dans leurs représentations géométriques idéales (courbe, point).

Les images naturelles contiennent des structures à différentes échelles, qui toutes concourentà la perception globale. Des travaux précédents sur l’analyse d’images fixes ont proposé leurextraction par l’analyse de versions plus ou moins simplifiées de l’image, notamment par lelissage spatial [52, 48]. Cette approche par esquisse primaire donne une idée résumée de lastructure de chaque image au moyen de primitives simples.

En particulier, la théorie de l’espace-échelle développée par Lindeberg [48] met l’accent surl’extraction de régions d’intérêt par la recherche des extrema d’une fonction lissée. L’associa-tion d’une région entière à un simple extremum est attirante par la simplicité de la représentationqu’elle apporte. La représentation est cependant assez complète, de par l’analyse multi-échelle.D’un point de vue temporel, les extrema étant des descripteurs fondés sur une propriété quali-tative, ils apportent potentiellement de la stabilité, que nous analyserons au chapitre3.

2.1 Espace-échelle

2.1.1 Vue générale

Une image possède de l’information à plusieurs niveaux d’échelle : il y a des entités de petitetaille, et d’autres de grande taille. L’approche par espace-échelle propose de mettre en évidenceces différentes tailles de structure en filtrant l’image par des bancs de filtres lissants passe-bas.Les filtres de faible rayon éliminent les détails les plus fins de l’image, alors que les filtres deplus grand rayon éliminent aussi les petites structures, et ne conservent que les structures plusgrandes.

Ainsi, l’espace-échelle à niveaux de gris associé à l’imageI pour un filtrage gaussien estdéfini par la famille des imagesL paramétrées parσ, taille du filtre :

L(·|σ) = Nσ ∗ I, (2.1)

Nσ(x) =1

2πσ2exp

{−‖x‖

2

2 σ2

}, (2.2)

19

Page 20: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

20 CHAPITRE 2. PRIMITIVES SPATIALES

et oùx ∈ R2 est un point de l’image.L’extraction de primitives intéressantes a lieu dans l’ensemble des imagesL.

Taches de niveaux de gris L’analyse des extrema des images filtréesL(·|σ) permet de détec-ter destaches de couleur(en anglais «blobs»). Dans la suite de ce document, nous parleronsde taches de couleur en tant que terme générique de régions contrastées avec leur voisinage, etde « blobs » pour les taches particulières détectées par l’analyse des extrema.

Les extrema correspondent aux centres de régions présentant un contraste avec leur voisi-nage. Un minimum correspond à une zone plus sombre que son voisinage, et un maximum àune zone plus claire. L’extraction de l’ensemble des taches implique deux analyses indépen-dantes : l’une pour les minima, et l’autre pour les maxima. Ces analyses sont analogues, car lesdeux types de « blobs » sont duaux : les « blobs » de minima sont équivalents aux « blobs » demaxima dans l’image−I, et inversement.

À chaque minimum local est associé un support, qui comporte deux niveaux. Le bassinversant d’un minimum est l’ensemble des points de l’image dont un chemin de pixels voisinsde valeurs décroissantes aboutit à ce minimum (voir [64] pour plus de détails sur la définitiondes bassins versants). Des bassins versants associés à deux minima différents sont séparés parune ligne de partage des eaux. Un bassin versant constitue un support du minima qui est assezétendu : il va jusqu’à la limite avec le bassin versant voisin, et contient donc des pixels dont lavaleur peut être assez éloignée de la valeur du minimum.

La région de support associée à un minimum est une restriction du bassin versant. Elle estdéfinie comme la plus haute inondation issue de ce minimum, et telle que celle-ci ne chevauchepas un bassin versant issu d’un autre minimum. La différence maximale de valeur entre leminimum et chaque pixel de la région de support correspond au contraste du « blob ». Celui-ciest limité par la hauteur de l’inondation.

Les bassins versants matérialisent l’idée que le support d’un « blob » est limité spatialementpar la présence des autres « blobs ». La région de support ajoute la contrainte que la limitationmutuelle concerne aussi le contraste, donnant ainsi une région ayant des valeurs plus cohérentes.Ces définitions sont illustrées dans le cas unidimensionnel à la figure2.1et sur une image à lafigure2.2. La figure2.3montre les minima et maxima associés à la même image pour différenteséchelles, ainsi que leurs régions de support.

minima

bassinsversants

de supportrégions

contraste

FIG. 2.1 – Régions de support et bassins versants des minima dans le cas monodimensionnel.

« Blobs » de laplacien Les « blobs » de niveaux de gris correspondent aux extrema directe-ment dans l’image filtrée en niveaux de gris. La valeur extremale du « blob » ainsi détecté n’estcaractéristique que du niveau de gris prépondérant au sein du « blob ».

Page 21: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.1. ESPACE-ÉCHELLE 21

limite du bassin versant

contour du support

extremum

image de la vidéo « blobs » des maxima pourσ = 8

FIG. 2.2 – Exemple de régions de support et bassins versants dans le cas des maxima de lumi-nance.

En ajoutant un traitement supplémentaire à la suite du lissage, on peut prendre en comptele contexte spatial de chaque point afin de déterminer la saillance d’une zone. L’analyse dulaplacien de l’image filtrée donne un tel indicateur de saillance.

Le calcul du laplacien de l’image filtrée est équivalent à une convolution directe par lelaplacien du noyau gaussien. Pour que les maxima du laplacien correspondent aux zones claires,on utilise l’opposé du laplacien :

−∆Nσ(x) =1

2πσ4

(2− ‖x‖2

σ2

)exp

{−‖x‖

2

2 σ2

}. (2.3)

Les « blobs » de laplacien sont donc issus de l’analyse de :

−∆L(|σ) = −∆Nσ ∗ I. (2.4)

Ce noyau comporte deux zones : au centre, une région positive, entourée d’un anneau né-gatif, puis la valeur du profil tend vers zéro. Ceci a l’effet de mettre en évidence les positionspour lesquelles le centre et la zone annulaire présentent un contraste. Les « blobs » laplaciensdétectent ainsi les points présentant un contraste d’intensité maximale.

La figure2.4représente des « blobs » de laplacien détectés à plusieurs échelles.Le laplacien de la gaussienne possède la propriété de pouvoir être approximé par une diffé-

rence de gaussiennes de rayons voisins :

−∆Nσ(x) ≈ 2σ′2

σ2(σ′2 − σ2)(Nσ(x)−Nσ′(x)) , (2.5)

où‖σ′ − σ‖ � σ.Cette écriture met en évidence une interprétation intéressante du laplacien. Il peut aussi être

interprété comme la différence pixel à pixel entre deux images obtenues à partir de l’imageIpar lissage avec deux gaussiennes de paramètres voisins.

2.1.2 Mise en oeuvre

L’extraction des « blobs » dans une image requiert les étapes suivantes :– Filtrage de l’image d’origine par un banc de filtres passe-bas.– Extraction des extrema locaux– Calcul des bassins versants– Fusion éventuelle des extrema trop proches– Calcul de la zone de support de chaque extremum

Page 22: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

22 CHAPITRE 2. PRIMITIVES SPATIALES

image de la vidéo σ = 4

σ = 8 σ = 16

FIG. 2.3 – Exemples de « blobs » gaussiens. Les minima (en blanc) et des maxima (en noir) ainsique les régions de support associées sont superposés à l’images filtrée pour différentes taillesde filtre. On notera en particulier que certaines taches se retrouvent sur plusieurs échelles.

Filtrage Dans la théorie de l’espace-échelle, le paramètre d’échelle prend des valeurs conti-nues. Il est donc toujours possible de connaître le comportement des « blobs » (apparition, dis-parition, fusion, division) lorsque l’on modifie l’échelle, en choisissant un pas d’échelle suffi-samment petit. Dans notre cadre d’une analyse de séquences vidéos, ceci impliquerait un coûtde calcul excessif. C’est pourquoi nous nous limitons à un nombre restreint d’échelles.

Il existe plusieurs méthodes pour calculer les images filtrées à partir de l’image d’origine.La première consiste à convoluer cette image par des filtres de taille variable. Cette solutiondemande un temps de calcul enO(σ2N2), oùN est la largeur de l’image etσ la largeur du filtre.Nous lui préférerons une approche équivalente à base de transformée de Fourier : la convolutionde l’image est en effet équivalente à un produit dans l’espace des fréquences. En utilisant unetransformée de Fourier rapide (FFT), le coût d’une transformée est enO(N2 log N). Le coûtdu produit est quant à lui deN2. Ces coûts sont indépendants de la taille de filtre utilisée, et serévèlent plus faibles avec les tailles de filtres utilisées dans notre cadre (σ supérieur à 16).

La transformée de FourierF (I) de l’image d’origineI est calculée une fois pour toutesles échelles. Puis, pour chaque échelle, on multiplie la transforméeF (I) pixel à pixel par latransformée du filtre, pour obtenir la transformée filtréeFσ(I). Nous utilisons comme dans [48]une gaussienne, dont nous notonsσ l’écart-type, qui donne l’échelle du filtrage.

Fσ(I)(~u) = F (I)(~u). exp(−||~u||2

σ2) (2.6)

L’image filtrée est obtenue par transformée de Fourier inverseF−1(Fσ(I)).

Page 23: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.1. ESPACE-ÉCHELLE 23

image de la vidéo σ = 8

σ = 16 σ = 32

FIG. 2.4 – Exemple de « blobs » de laplacien. Les minima (en blanc) et des maxima (en noir)ainsi que les régions de support associées sont superposés à l’image filtrée pour différentestailles de filtre.

Notons que d’autres méthodes telles que l’approximation du filtre gaussien par filtre récursif[22] peuvent être plus rapides dans ce cas.

Le reste de l’analyse se fait de façon indépendante sur chacune des échelles.

Extraction des extrema On traite les minima et les maxima de façon entièrement indépen-dante dans tout l’algorithme. Les candidats sont extraits par vérification d’un simple prédicatd’extrémalité locale (4 ou 8 voisins). La présence d’éventuels plateaux pour l’extraction desextrema n’est pas apparue comme un problème sensible, étant donné qu’après filtrage, les pla-teaux sont quasiment inexistants. Nous utilisons en effet des images à valeurs réelles, qui neprésentent plus de plateaux une fois filtrées. Cependant, le calcul des bassins versants impli-quant la mise en oeuvre d’une inondation, il est possible lors de cette inondation d’éliminer lesextrema superflus. Les extrema locaux présents sur un plateau sont ainsi éliminés si le plateaun’est pas extremal, et sont représentés par un point arbitraire du plateau dans le cas où celui-ciest extremal.

Calcul des bassins versants Les bassins versants sont calculés par une méthode d’inondationà base de files d’attentes, en utilisant les extrema calculés précédemment comme sources.

Les vidéos du corpus présentent des zones noires sur les bords, qui perturbent ce procédé,en créant de nombreux minima parasites. Leur élimination dès la détection des extrema nerésout pas entièrement le problème. En effet, les zones associées à des minima proches des

Page 24: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

24 CHAPITRE 2. PRIMITIVES SPATIALES

bordures peuvent alors se propager le long de la bordure et ainsi créer des bassins versantsatteignant des parties de l’image à l’opposé de la source. Pour remédier à cela, il est possible soitd’interdire la propagation des bassins versants près des bords, soit d’imposer une propagationmonotone : pour les minima, une zone déjà étiquetée ne peut s’étendre que vers des pixels devaleur supérieure.

Fusion des extrema Il est cependant apparu que les distances entre certains extrema étaientinférieures au paramètre de filtrageσ. Dans ce cas, ils correspondent à des zones ayant un trèsfaible contraste, à cause du lissage des variations. Ceci ne pose pas de problème dans le cadred’un vrai espace-échelle, où de tels couples d’extrema sont fusionnés à une échelle légèrementsupérieure. Par contre, étant donné le nombre limité d’échelles que nous considérons, il estpossible qu’un « blob » fusionné soit atténué à l’échelle supérieure. Or, dans une optique desuivi, il est préférable de suivre des « blobs » à fort contraste, qui ont moins de chance dedisparaître au cours du temps. Dans ces conditions, nous avons opté pour un regroupement detels extrema, de manière à éviter la détection de « blobs » que l’on saita priori peu contrastés,et donc moins fiables au niveau du suivi.

En pratique, nous avons regroupé les extrema distants de moins deσ qui est le paramètrespatial du filtrage gaussien. Le regroupement final est obtenu par fermeture transitive : on cal-cule les composantes connexes du graphe dont les sommets sont les extrema et une arête estprésente entre deux sommets si ceux-ci sont trop proches. L’ensemble des extrema d’une tellecomposante est remplacé par l’extremum le plus marqué (le plus haut pour les maxima, le plusbas pour les minima) ; et on lui associe un bassin versant égal à l’union des bassins des extremafusionnés.

Calcul des zones de support Il est alors possible en parcourant le contour de ces bassins dedéterminer la hauteur du support associé à l’extremum, qui est la valeur sur le contour la plusproche de la valeur de l’extremum. La zone de support est alors la sous-région du bassin versantdont les pixels ont des valeurs comprises entre la hauteur de l’extremum et la hauteur du support(voir figure2.1).

2.2 Taches de couleur

Nous avons vu l’extraction de taches sous la forme de « blobs » gaussiens et laplaciens dansdes images en niveaux de gris. Dans ce cas, une tache se distingue par son contraste par rapportà son voisinage, et par le fait que ce contraste est localisé spatialement. Dans le cadre plusgénéral des images couleur, nous pouvons exprimer la notion de contraste par deux propriétés :l’intérieur de la tache présente une couleur cohérente, et cette couleur peut être distinguée de lacouleur à l’extérieur de la tache.

Les méthodes existante de détection de taches de couleur reposent sur cette deuxième dé-finition, en recourant à la classification des pixels dans un espace de caractéristiques. Cetteclassification permet de regrouper les pixels présentant une couleur cohérente, en les séparantdes autres pixels.

Nous verrons dans cette section une discussion des méthodes existantes, qui détectent destaches pour une échelle fixée. Nous introduirons ensuite plusieurs approches pour étendre l’ap-proche de l’espace-échelle en niveaux de gris aux images couleurs, et exploiterons le lien entrel’une des méthode de détection de taches et espace-échelle pour proposer une méthode d’ex-traction de taches de couleurs hiérarchiques multi-échelles.

Page 25: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.2. TACHES DE COULEUR 25

Notre objectif est de parvenir à extraire une structure multi-échelles à partir de l’imagecouleur, qui rende compte à la fois de la présence des taches de couleurs dans l’image, maisaussi de leur évolution à plusieurs échelles d’analyse.

Nous considérons dans ce qui suit une imageI à plusieurs canaux. La valeur du pixel~x estun vecteurc = I(~x) de l’espaceC des couleurs. L’exposé est général, et peut être appliqué àtout type d’images à valeurs dans un espace vectoriel. Nous étudierons plus particulièrement lecas des images de couleurs de type RVB ou Luv, qui possèdent trois canaux.

Les espaces de couleurs à valeurs circulaires, tels que HSV ne rentrent pas directement dansle cadre présenté. En effet ceux-ci posent des problèmes lors du lissage spatial et du mélangedes couleurs.

Étant donné un pixel~x de l’espace des positionsP, l’imageI lui associe la valeurI(~x) dansl’espace des couleursC : {

P → Cx 7→ I(~x)

(2.7)

2.2.1 Taches de couleur dans la littérature

Les méthodes existantes de détection de taches de couleur se basent sur la classification despixels. L’espace des caractéristiques utilisé pour distinguer les pixels associés à une tache desautres peut être basé sur deux types d’informations : la position spatiale et les caractéristiquesvisuelles locales (couleur ou texture).

Classification en couleur seulement

Le système Blobworld proposé par Carson et al. [9] résume une image couleur sous laforme d’un ensemble de taches, de couleur et de texture cohérentes. Lors de l’extraction, ilstraitent la dimension spatiale à part. La classification est en effet effectuée uniquement sur lescaractéristiques visuelles que sont la couleur et la texture.

Une fois les classes estimées, ils mettent en évidence les supports spatiaux associés parrétroprojection : à chaque pixel est associé l’étiquette de la classe à laquelle il appartient. Lespixels de chaque classe sont alors segmentés en composantes spatialement connexes. Chaquecomposante connexe d’aire suffisante devient une tache de couleur (« blob »).

Afin de le résumer pour la phase d’indexation, la tache est caractérisé par ses moments sta-tistiques tels que la moyenne de chacune des caractéristiques visuelles, et les moments spatiauxd’ordre un et deux. Une tache est ainsi résumé par une ellipse à laquelle est associé un ensemblede caractéristiques visuelles moyennes.

La classification couleur est effectuée globalement. Deux régions voisines dont les couleursne sont pas identiques mais proches peuvent donc appartenir à la même classe ou pas, selon ladistribution de couleur dans le reste de l’image. Mis à part cet inconvénient, ceci permet quela taille des taches soit réglée automatiquement par le calcul en composantes connexes, à partirdes classes de couleur. La notion de forme regroupée de la tache de couleur n’est donc ici pasimposée dans la détection. La cohérence de couleur prime sur la cohérence spatiale du support,qui est réduite à l’exigence de connexité.

Classification en position et couleur

La classification des pixels de l’image dans un espace joint combinant la position et descaractéristiques locales (couleur ou texture) a été d’abord proposée par Krauth et al. [44] dans

Page 26: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

26 CHAPITRE 2. PRIMITIVES SPATIALES

le cadre de la segmentation d’images multi-spectrales. Un pixel est associé à un vecteur de ca-ractéristiques formé de sa position dans l’image, ainsi que de la valeur du pixel dans chacundes canaux de l’image. La classification de ces vecteurs de caractéristiques induit une segmen-tation des pixels associés. La classification dans un espace de positions et couleurs en est un casparticulier.

Classification paramétrique Cette approche a été reprise dans le cadre du projet Pfinder [80]visant à modéliser des personnes évoluant devant une caméra pour les insérer dans un environ-nement virtuel. Une personne est modélisée par un ensemble de taches de couleur détectés entemps réel et qui assurent le suivi pour mettre à jour un modèle du corps humain. L’espace descaractéristiques utilisé possède 5 dimensions, chaque pixel étant représenté par sa position etsa couleur dans un espace YUV. Le choix de cet espace de couleurs est motivé par sa bonneintégration dans les accélérations matérielles.

Les taches sont modélisés dans l’espace des caractéristiques par des densités gaussiennesparamétrisées par leurs centres et leurs matrices de covariances à déterminer. La position et lacouleur ayant des sémantiques différentes, ces dimensions sont supposées indépendantes (lescovariances entre couleur et position sont nulles). Les taches sont détectées de façon dirigée,grâce à de l’information externe sur la position des membres de la personne, soit par une analysestatique de la silhouette de la personne, soit par la projection des paramètres des taches à partirde l’image précédente.

L’appartenance d’un pixel à une tache est déterminée par une méthode d’inondation pro-gressive des pixels à partir du centre de chacune d’elles. Cette inondation prend appui sur unmasque du personnage obtenu à part. Cette technique vise à obtenir des supports de tachesconnexes et de forme compacte.

Classification non paramétrique Comaniciu et Meer [15] proposent une méthode de seg-mentation d’images par la couleur reposant sur le même principe de classification dans un es-pace de positions et couleurs. Au lieu de modéliser de façon paramétrique la distribution depositions et couleurs, ils recourent à l’estimation empirique de ses modes. Chaque mode met enévidence une classe de points formant un amas dense, qui correspond à un ensemble de pixelsà la fois proches en position et en couleur.

La mise en oeuvre de la classification repose sur une méthode de remontée de gradient.Chaque point peut être associé à un mode, en effectuant une remontée de gradient. La classifica-tion est alors obtenue en regroupant les points qui convergent vers un même mode. La méthodede Comaniciu et Meer se base sur un type particulier d’estimation de la densité. Celle-ci permetl’application d’un algorithme de remontée de gradient par «mean-shift», qui ne nécessite pasle calcul explicite de la distribution, et qui sera décrit en détail à la section2.3.1.

La densité de positions et couleurs utilisée est obtenue par application d’un estimateur deParzen. En notant respectivementpi et ci la position et la couleur du pixeli, la fonction dedensité est de la forme :

fα,r(p, c) =n∑

i=1

k

(∥∥∥∥p− pi

r

∥∥∥∥2

+

∥∥∥∥c− ci

α

∥∥∥∥2)

, (2.8)

où k est le profil du noyau de convolution utilisé,r et α sont deux paramètres réglant la tailledu noyau dans les dimensions de position et de couleur. Le profilk est classiquement celui d’unnoyau normalkN(x) = exp(−x/2) ou d’EpanechnikovkE(x) = max(0, 1− x).

Cette estimation a pour effet de lisser la distribution de positions et couleurs, regroupant unensemble de points proches à la fois en position et en couleur dans une classe associée à un

Page 27: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.2. TACHES DE COULEUR 27

seul mode. Comaniciu et Meer ajustent manuellement les paramètresr etα (respectivemenths

et hr dans leurs notations) sur les exemples qu’ils montrent. La classification est donc mise enoeuvre à échelle fixe.

Une fois les modes de la densité obtenus, ceux-ci sont regroupés en fonction d’un seuilsur leurs distances respectives dans l’espace des caractéristiques. Ainsi, des modes prochesde moins deα dans le domaine spatial et der dans le domaine couleur sont fusionnés. Cesregroupements sont effectués par fermeture transitive, ce qui revient à estimer les composantesconnexes d’un seuillage du graphe des distances mutuelles. Pour la visualisation, les auteurséliminent les regions de petite taille.

Phénomène de plateaux

La distribution de positions et couleurs correspondant à une image qui possède des aplatsde couleur contient des plateaux, c’est à dire des zones où la densité est à peu près uniforme,mais qui sont étendues dans une ou plusieurs dimensions. Dans le cas d’une tache de couleurhomogène de taille importante, la distribution de positions et couleurs de ses pixels est étroitedans les dimensions de couleur mais étendue dans les dimensions spatiales. La densité estiméeest à peu près constante pour des rayons dont la composante spatiale est inférieure à la taille dela région. Ceci n’a pas lieu dans BlobWorld, car seule la couleur y est segmentée.

Lorsque le rayon de lissage est trop faible dans les dimensions spatiales, un aplat de couleurdonnera lieu à plusieurs modes. En effet cette situation se traduit par un plateau de la densitéde positions et couleurs, sur lequel tous les points ont à peu près la même densité. Le bruit del’image d’entrée peut alors générer de nombreux modes locaux. De plus des faibles variationsde l’image originale peuvent favoriser l’un ou l’autre des points du plateau, sans qu’un seulpoint particulier ne puisse se détacher nettement.

L’étape de fusion des modes utilisée par Comaniciu et Meer [15] prend en compte ce phé-nomène. En effet, l’estimation des modes repose sur la remontée de gradient, qui n’est biendéfinie que dans les zones de transition, c’est à dire là où le gradient indique sans ambiguïté ladirection du mode. Ceci n’est pas le cas au centre d’un plateau, où la densité est uniforme.

Les deux étapes de l’algorithme se complètent. La remontée de gradient éloigne les pointsdes vallées de densité, en les concentrant vers les modes de densité. Cette étape ne suffit pasdans le cas de taches étendues spatialement, c’est pourquoi elle est complétée par la fusion deproche en proche des modes voisins.

Le réglage des paramètres de fusion des modes n’est pas discuté par les auteurs, qui leprennent identique aux rayonsr etα utilisés pour le noyau de lissage. Il s’agit néanmoins d’unparamètre qui n’est pas de la même nature qu’un paramètre de lissage de densité.

Pour avoir une illustration des commentaires précédents, se reporter à la figure2.13de lapage44 pour le résultat du «mean-shift» seul et à la figure2.14de la page45 pour le résultatde la fusion des modes pour deux paramètres de fusion différents. On voit que la segmentationavec fusion fait apparaître des structures visuelles à une échelle où les modes extraits par le« mean-shift» sont encore très nombreux et inutilisables. À l’échelle pour laquelle les modescommencent à correspondre à des structures visuelles, la segmentation avec fusion donne desgrandes régions peu spécifiques.

Notre sentiment est que la méthode de recherche des modes de Comaniciu et Meer a despotentialités, qui n’ont pas été utilisées dans l’approche mono-échelle. La présence de plusieursmodes pour un plateau semble dans ce cadre être lié à un mauvais choix d’échelle : une échelleplus large lisserait plus le plateau, et le réduirait alors à un seul mode. L’utilisation de deuxméthodes différentes de classification (par détection de mode puis regroupement basé sur la

Page 28: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

28 CHAPITRE 2. PRIMITIVES SPATIALES

distance) n’est alors plus nécessaire.Nous explorerons l’extension de cette méthode dans un cadre espace-échelle à la section2.2.3.

La section suivante présente une première approche de la détection de taches de couleur à partirde l’espace-échelle en niveaux de gris.

2.2.2 Espace-échelle de niveaux de gris à partir d’images en couleurs

Nous avons vu plusieurs méthodes existantes d’extraction de taches de couleur, qui tra-vaillent à échelle fixe, ou pour un nombre de taches fixé à l’avance. Des analyses séparéespour des paramètres distincts sont possibles, mais les méthodes ne prévoient pas de déterminerun lien explicite entre les résulats des différentes analyses. Les taches extraites ne font doncpas partie d’une structure multi-échelle qui permette de représenter de façon unifié l’image àplusieurs niveaux.

Nous allons à présent voir comment l’espace-échelle de niveaux de gris peut être adaptépour prendre en compte des images couleurs. La structure multi-échelle apparaît naturellementdans cette approche, produisant des structures de taches de couleur multi-échelles.

Principe général

Pour se ramener au cas mono-canal, pour lequel la notion d’extremum a un sens, nousintroduisons, au sein de l’analyse en espace-échelle, la transformation de l’image en couleursen image en niveaux de gris. On utilisera pour cela une fonction de transformationp qui projettechaque pixel couleur de l’image couleur en un pixel en niveaux de gris.

La figure2.5représente le principe de l’analyse d’une image couleur en espace-échelle quirepose sur une telle projection. Le procédé utilisé pour les taches de niveaux de gris comporteun lissage d’une image à niveaux de gris. Le procédé utilisé pour les taches de couleur comporteune projection de la couleur vers les niveaux de gris et deux lissages. Le lissage peut en effetintervenir avant ou après la projection, ce qui aura un effet différent lorsque la projection estnon linéaire. L’analyse peut éventuellement comporter des post-traitements, afin de détecter desstructures particulières dans l’image. On peut appliquer par exemple le laplacien à l’imageMσ,r.

lissage projection lissage

JσLσI Mσ,r

p

post-traitement

par ex. ∆Mσ,r

spatial σ spatial r

FIG. 2.5 – Schéma de l’analyse en espace-échelle d’une image couleur en passant par une pro-jection. L’image de couleursI est lissée spatialement, puis transformée en image de niveaux degris Jσ, elle-même lissée spatialement. Une étape faculative de mise en évidence de structuresspécifiques peut être ajoutée en fin de traitement.

Cas linéaire

Lorsque les lissages et la projection sont des opérateurs linéaires, la méthode est alors équi-valente à une méthode dans laquelle il n’y aurait qu’un seul lissage spatial, tel qu’illustré dansla figure2.6. L’analyse en espace-échelle est alors identique à une analyse sur des images àniveaux de gris.

Page 29: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.2. TACHES DE COULEUR 29

projectionp

I J Mr

spatial σ + r

lissage

FIG. 2.6 – Schéma de l’analyse en espace-échelle d’une image couleur après une projectionlinéaire des couleurs.

Application Lorsque l’image d’entrée est dans l’espace couleur RVB ou Yuv, l’analyse del’image en niveaux de gris de la luminance est un cas particulier de cette approche, pour lequella fonctionp est une projection sur la dimension de la luminance.

Un autre cas particulier de ce type de méthodes est l’analyse de chaque canal séparément.Par exemple, pour une image Yuv, l’analyse de la composante Y produira des taches dans l’axeclair-foncé, l’analyse de la composante u produira des taches dans l’axe jaune-vert/violet, etl’analyse de la composante v produira des taches dans l’axe rouge/vert-bleu.

L’intérêt d’avoir ainsi plusieurs analyses est de détecter des taches de plusieurs types, ilsera donc peu profitable de l’appliquer directement à une image RVB. En effet, les canauxR, V et B sont tous trois fortement corrélés avec la luminance. Les résultat de chaque canalprésenteront donc en général une certaine redondance entre eux. Cette remarque s’applique auximages naturelles. Cette corrélation peut être moins significative sur des images artificielles avecdes couleurs très saturées.

Une telle analyse n’est pas limitée à des projections sur les canaux. À chaque opérateurlinéaire de projectionp, correspond une analyse en espace-échelle distincte. La définition d’unensemble de tels opérateurs permet donc une plus grande variété de taches. Ces opérateurslinéaires peuvent être paramétrisés par le coefficient linéaire appliqué à chaque canal. Ainsi,l’ensemble des projections linéaires s’expriment sous la forme :

p(c) = w1c1 + w2c2 + w3c3 (2.9)

où c ∈ C est une couleur de composantes(c1, c2, c3), et w = (w1, w2, w3) est un vecteur deparamètres.

Cette paramétrisation de l’analyse par l’opérateur de projection constitue une améliorationpar rapport à une analyse en niveaux de gris ou une analyse sur chaque canal, grâce à la mul-tiplication des points de vue possibles. Ceci permet la détection d’une tache de couleur sur unaxe d’analyse approprié, alors que les autres axes ne permettent pas une bonne discrimination.La figure2.7illustre ce point pour la couleur jaune, qui ne peut pas être détectée sur les canauxRVB lorsque celle-ci est entourée de rouge et de vert.

Détection de zones de couleur moyenneL’analyse d’image mono-canal impose des limi-tations liées au traitement unidimensionnel des valeurs des pixels. Ainsi, les zones de valeurmoyenne par rapport à leur voisinage ne sont pas détectées, car ne présentant ni un maximumni un minimum de valeur. Ceci se généralise dans le cas de la couleur par la notion de « couleurmoyenne » : étant donnée une zone de couleur et son voisinage, les couleurs du voisinage sontsituées de part et d’autre de la couleur de la zone dans l’espace des couleurs. En particulier, enprésence de trois couleurs, la couleur de la zone centrale se trouvera, dans l’espace de couleur,sur le segment de droite ayant pour sommets chacune des deux autres couleurs.

Pour des projections linéaires, la valeur projetée d’une zone de « couleur moyenne » setrouvera entre les valeurs projetées associées à son voisinage. Ce phénomène est du à la mo-notonie de la fonction de projection par rapport à chaque dimension de couleur. Il est donc

Page 30: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

30 CHAPITRE 2. PRIMITIVES SPATIALES

(b)

vert jaune

rouge

marron

(a)

vert

−ja

une−

roug

e

vert

−m

arro

n−ro

uge

R V R VV+R V+RR

VV+R

FIG. 2.7 – Mise en évidence de taches de couleur par projection linéaire sur un plan de couleurautre qu’un des canaux originaux. (a) : Les pastilles représentent 4 couleurs RVB dans le planR/V, qui sont utilisées dans les dégradés de (b). (b) : Les dégradés sont projetés sur les canauxR et V, ainsi que sur le plan R+V obtenu en combinant R et V. Le niveau de gris est plus clairpour les valeurs plus élevées. Aucun des dégradés ne permet de détecter la couleur du milieusur les canaux R et V directement. Par contre, la projection sur R+V associe à la couleur jauneune valeur qui est extrémale.

toujours possible qu’une plage étendue de couleur passe inaperçue à l’analyse multi-échelles,si elle est spatialement située entre deux plages de couleurs positionnées de part et d’autre dansl’espace couleur. Dans l’exemple de la figure2.7, le marron n’est détectable avec aucune pro-jection linéaire, car il est situé entre le vert et le rouge. Dans ce cas, il faut avoir recours à unenon-linéarité si l’on veut mettre cette couleur en évidence.

Cas d’une transformation non-linéaire

La figure2.8représente un exemple de fonction de projection non-linéaire, qui associe à unezone de couleur moyenne une valeur maximale par rapport à ses voisines. La propriété impor-tante pour mettre en évidence une zone de couleur moyenne est la non-monotonie par rapportaux axes de l’espace couleur : c’est elle qui permet de transformer une « couleur moyenne » enune valeur extremale.

Les fonctions à base radiale sont parmi les fonctions non linéaires les plus simples définiessur un espace vectoriel, elles ne nécessitent que la définition d’un centre et d’un profil, qui peuten outre être paramétré par un unique paramètre d’échelle. Si l’on prend un profil décroissantavec le rayon, ceci a une interprétation simple. Le centre représente une couleur de référence.Les couleurs proches de la couleur de référence sont associées à une valeur forte, les autres àune valeur plus faible. Une telle non-linéarité permet bien sûr de mettre en évidence la couleurde référence choisie comme centre. D’autres couleurs peuvent aussi être détectées. Ainsi, dansl’exemple de la figure2.8, la fonction non-linéaire centrée sur le jaune permet de mettre enévidence non seulement le jaune, mais aussi le marron, lorsque ceux-ci sont entourés de rougeet de vert.

Une tache issue de l’analyse d’une telle carte de valeurs sera associé à une couleur de réfé-rence. Il y a de nombreuses couleurs de référence possibles, qui requièrent chacune une analysemulti-échelle basée sur une transformation non-linéaire spécifique. Ces analyses sont indépen-dantes. Nous verrons à la section2.2.3comment unifier l’analyse pour ne pas avoir à spécifier

Page 31: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.2. TACHES DE COULEUR 31

de couleur de référence.

(a)

vert jaune

marron

rouge

(b) (c)

FBR

vert

−ja

une−

roug

e

FBR

vert

−m

arro

n−ro

uge

V

R

rayon

rayon

FBR

FIG. 2.8 – Utilisation d’une transformation non linéaire pour mettre en évidence une zone decouleur moyenne. (a) : Lignes de niveau d’une fonction à base radiale centrée sur la couleurjaune. (b) : Profil de la fonction à base radiale (FBR). (c) : Application de la fonction à deuxdégradés. La non-monotonie de la fonction de transformation par rapport aux canaux permet dedonner à la zone centrale une valeur maximale par rapport aux zones voisines, même pour unecouleur qui n’est pas au centre de la fonction à base radiale.

Combinaison de cartes de saillance

Nous avons vu plusieurs façons de se ramener au cas unidimensionnel à partir des imagesen couleurs. En pratique, on obtient plusieurs cartes de niveaux de gris indépendantes. Il seraitintéressant de pouvoir les combiner en une unique carte sur laquelle l’analyse multi-échelleserait menée.

Dans le cas d’un simple lissage suivi d’une projection (« blobs » gaussiens), cette combinai-son est délicate, car la valeur de chaque carte a peu de sens dans l’absolu : ce qui compte est laprésence d’un extremum local. Le calcul du laplacien transforme les images lissées en cartes desalliance, qu’il est mieux fondé de combiner que les images d’origine.

En combinant les cartes de laplacien issues des analyses sur chaque canal à l’aide d’unenorme, on définit une extension naturelle des « blobs » de laplacien en niveaux de gris. Letraitement en espace-échelle est effectué indépendamment sur chaque composante, par la suc-cession d’un lissage gaussien de tailleσ, suivi par le calcul du laplacien spatial sur chaquecomposante. On obtient ainsi un laplacien couleur, qui correspond à la convolution de l’imagecouleurI dans chaque composante par le laplacien d’une gaussienne de paramètreσ. La normede ce laplacien est alors une carte de salliance à valeurs positives, issue de la combinaison descartes de salliance issues de chaque composante.

L’analogie entre le laplacien et la différence de gaussiennes, que nous avons eu l’occasion deremarquer pour les niveaux de gris, s’applique aussi à la norme du laplacien. En niveau de gris,le laplacien était approximativement une différence entre images filtrées d’échelles voisines. Ici,la norme du laplacien couleur est approximativement une distance couleur pixel à pixel entreimages couleurs lissées d’échelles voisines.

Page 32: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

32 CHAPITRE 2. PRIMITIVES SPATIALES

2.2.3 Espaces-échelles de distributions de positions et couleurs

Les méthodes précédentes traitent l’analyse sur des canaux ou des projections de façon in-dépendantes. Nous explorons ici un formalisme permettant d’effectuer une analyse en espace-échelle sur la couleur, qui unifie la détection des taches de différentes couleurs. Celui-ci reposesur des espaces-échelles de la densité de positions et couleurs. Nous ferons le lien entre cette ap-proche et la méthode de Comaniciu et Meer [15] vue précédemment, ainsi qu’avec l’adaptationde l’espace-échelle de niveaux de gris aux images couleurs, introduite à la section précédente.

Distribution locale de couleurs À chaque positionx dans l’image, on peut associer unedistribution locale de couleurs, par un procédé représenté à la figure2.9. Cette distribution localecontient de l’information sur la distribution de couleurs au voisinage d’un point de l’imageconsidéré. L’étape de lissage dans l’espace des couleurs requiert que cet espace soit euclidien,afin de pouvoir représenter la force du lissage par un unique rayonα. Dans un tel espace, lareprésentation sous la forme d’un histogramme de couleur est une façon classique de représenterla distribution en pratique [46].

L’image multi-canauxI est d’abord lissée par convolution avec un noyau gaussien de tailleσ. Ce traitement est indépendant pour chaque canal, et donne une image lissée multi-canauxLσ. La densité de la couleurc au pixelx est alors :

Hσ,α,r(p, c) =∑q

Nr(‖q− p‖) Nα(‖Lσ(q)− c‖) (2.10)

où r représente la taille de la fenêtre gaussienne sur laquelle la densité est calculée, etα estun paramètre de lissage dans l’espace des couleurs.Nr etNα sont des gaussiennes normaliséesdéfinies à l’équation2.2.

Espaces-échelles sous-jacentsCette représentation, que Koenderink et van Doorn nommentlocally orderless images[46], forme un ensemble de trois espaces-échelles, chacun étant munide son propre paramètre d’échelle :σ, r etα. Elle tire son nom du fait que la distribution localede couleurs ne contient pas d’information sur l’organisation spatiale locale des couleurs, car lesrelations d’ordre spatial ont été perdues lors de l’intégration sur un voisinage. Par contre, l’orga-nisation spatiale non locale de l’image est conservée, car des positions différentes correspondentà des distributions de couleur différentes.

Chaque paramètre d’échelle a une influence spécifique :– σ, échelle interne : le rayon du filtrage gaussien appliqué à l’image d’origine.σ est

caractéristique du niveau de résolution à laquelle l’image est analysée. Le cas limiteσ ≈ 1 pixel prend en compte les caractéristiques de couleur associées à chaque pixelde l’image ;

– α, échelle spectrale : le rayon d’influence de chaque couleur sur les couleurs voisines,lors du lissage de la distribution de couleur. Par ce paramètre, on définit la distance carac-téristique entre deux couleurs jugées voisines ;

– r, échelle externe : le rayon de la zone, centrée surp, sur laquelle est calculée la distri-bution locale de couleur. Ce paramètre est caractéristique de la taille des structures quel’on désire retrouver dans l’image. Le cas limiter → ∞ revient à une analyse de ladistribution globale des couleurs dans l’image.

Modes et supports des modes Dans un tel espace à 5 dimensions, il est possible de définir lanotion de tache de façon tout à fait analogue au cas 2D.

Page 33: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.2. TACHES DE COULEUR 33

positions et couleursen distribution de

transformation

équivalent de projections couleursnon-linéaires à noyaux radiaux

ILσ

Hσ,α,r

Hσ,0,0 Hσ,α,0lissagespectral

α

intégration surun voisinage

r

lissage spatialσ

FIG. 2.9 – Schéma de principe de la définition des histogrammes locaux de couleur. On remar-quera en particulier la similitude du procédé avec celui présenté à la figure2.5, voir le textepour une discussion plus détaillée.

Le centre d’une tache est défini comme un mode de la distributionHσ,α,r(p, c). Cette tacheest dotée d’un bassin versant, qui contient tous les points de l’espace qui dépendent de sonmode par inondation. On obtient ainsi une partition de l’espace 5D en bassins versants. Seulsles maxima sont intéressants dans la distribution de positions et couleurs, car ils correspondentà des zones de forte densité, pour lesquels il est possible d’associer des points de l’image. Lesminima dans un tel espace à 5 dimensions n’ont pas d’interprétation utile pour l’analyse del’image.

La projection de la carte des bassins versants sur les deux dimensions spatiales entraîneinévitablement des superpositions. Ainsi, une position dans l’image peut être associée simul-tanément à plusieurs modes, qui correspondent à des couleurs différentes. Des modes peuventainsi être très proches spatialement, mais correspondre à des couleurs distinctes. Cela est le caspar exemple pour des motifs en damiers, quand le rayon externer est plus grand que la tailledes cases.

Lien avec les approches par projection des couleursUne analyse telle que l’une de cellesvues à la section2.2.2se ramène, par le choix d’une fonction de projection ou d’une mesure dedistance dans l’espace des couleurs, à une analyse dans un espace-échelle en niveaux de gris. Ils’agit ainsi d’étudier une fonction de l’espace des positionsP vers la droite réelleR :{

P → Rp 7→ Mr ou ‖∆Lσ‖

(2.11)

L’approche que nous venons de définir travaille au contraire sur une distribution dans l’es-pace de positions et couleursP × C :{

P × C → R+

p, c 7→ Hσ,α,r(p, c)(2.12)

Il existe cependant un lien fort avec la transformation non-linéaire des couleurs de l’imaged’entrée. En effet, l’espace de positions et couleurs peut être considéré comme l’empilementd’hyperplans de dimension 2 à couleur constante. Pour une couleurc0 fixée, la distributionHrestreinte à l’hyperplan correspondant àc0 est de la forme :{

P → R+

p 7→ Hσ,α,r(p, c0)(2.13)

Cette distribution correspond exactement à l’imageMr (à positions continues et valeursréelles positives), obtenue en suivant le procédé de la figure2.5, à condition de choisir unefonction de projection couleurp spécifique.p doit en effet être non linéaire, à savoir une gaus-sienne de centrec0 et d’écart-typeα : p(c) = N

(∥∥c−c0

α

∥∥).

Page 34: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

34 CHAPITRE 2. PRIMITIVES SPATIALES

Ce lien explique la similitude des procédés représentés dans les figures2.5 et 2.9. L’ap-proche par distribution de positions et couleurs peut ainsi être vue comme une généralisation del’approche par projection couleur.

Contrairement à l’approche par projection de l’image couleur en image à niveaux de gris, quiconsidère une fonction de projection indépendante pour chaque couleur de référence, l’approchepar espace de positions et couleurs unifie l’ensemble des projections, en associant le paramètrede la couleur de référence à des dimensions de l’espace d’analyse. Il n’est ainsi pas nécessairede multiplier les analyses indépendantes pour prendre en compte plusieurs axes de couleur.

Le paramètre de la couleur de référence le plus adapté pour l’extraction des taches n’estainsi pas fixéa priori, mais peut être déterminé pour chaque tache automatiquement, en mêmetemps que son centre spatial : il s’agit d’un mode de la distribution dans l’espace des positionset couleurs.

Mise en oeuvre naïve D’un point de vue calculatoire, le stockage de la distribution sous laforme d’un histogramme de positions et couleurs associant à chaque couple position et couleur(p, c) une valeur de densité pose un problème de place mémoire. En effet, l’échantillonnagede l’espace des couleurs requiert un minimum de couleurs, afin de ne pas simplifier l’imaged’entrée à outrance. Le lissage de couleur de paramètreα compense cet échantillonnage, maisle théorème de l’échantillonnage indique que la discrétisation sur chaque axe doit être plusprécise que la taille du filtre. En pratique, en dessous de64 = 43 couleurs, la quantification esttrop forte et il devient alors impossible de discerner des couleurs perceptuellement distinctes,une fois le lissage couleur appliqué.

La mémoire nécessaire pour conserver tous les histogrammes est équivalente à autant d’ima-ges à valeurs réelles qu’il y a de couleurs considérées. On voit qu’une telle structure de donnéesest prohibitive, pour un traitement de la vidéo, d’autant plus que cette place mémoire correspondà un seul jeu de paramètresσ, r, α. La mise en oeuvre pratique requiert donc une adaptation,afin de ne pas manipuler la distribution de positions et couleurs directement.

Lien avec la classification de positions et couleursPour obtenir un étiquetage de chaquepixel, il n’est pas nécessaire de calculer le support complet de chaque bassin versant, maisseulement à quel mode est associé chaque pixel. C’est l’approche même suivie par Comaniciuet Meer dans l’approche décrite à la section2.2.1. On remarque en effet que l’expression de ladistribution locale de couleur de l’équation2.10est analogue à l’expression de la distributionde positions et couleurs de l’équation2.8. Les différences tiennent au choix d’un noyau normaldans le premier cas, et au fait que les couleursLσ associées aux pixels sont issues d’un premierlissage spatial de l’image.

Ce lien est très intéressant, car il nous permet de considérer la distribution de positions etcouleurs, dont Comaniciu et Meer recherchent les modes par «mean-shift», dans le cadre plusgénéral des espaces-échelles, introduits par Koenderink et van Doorn sous la forme des imagessans ordre local. La première approche propose des méthodes de calcul efficaces de l’associationd’un pixel à un mode de la distribution de positions et couleurs, alors que la deuxième fournitune approche formalisée de la représentation multi-échelle de ces modes, à travers trois typesd’échelles (interne, externe et spectrale) qui ont chacune un sens spécifique en terme d’analysede l’image.

La section suivante détaille la mise en oeuvre générale de la méthode de recherche desmodes par «mean-shift». Nous verrons ensuite comment l’adapter pour obtenir une représen-tation multi-échelle de la distribution de positions et couleurs.

Page 35: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 35

2.3 Classification par recherche de modes

Considéronsn pointsxi, i ∈ 1..n, dans un espace àd dimensionsRd. L’objectif est departitionner ces points en classes, en regroupant les points proches les uns des autres. L’approchepar recherche de modes analyse une fonction de densitéf(x), qui indique la densité locale despointsxi. Chaque mode de cette densité est associé à une classe, qui contient tous les pointssitués dans le bassin versant de ce mode. Nous présentons ici la méthode de classification parrecherche de modes basée sur lemean-shift, présentée par Comaniciu et Meer [15], et qui permetl’association de chaque point à un mode sans passer par l’estimation explicite de la fonction dedensité.

2.3.1 Modes d’une distribution par «mean-shift»

Les pointsxi sont considérés comme une échantillonage de la densité inconnuef(x). Lareconstruction de la densité inconnue se fait classiquement par l’utilisation d’un estimateur ànoyau, ou fenêtre de Parzen [25]. La densité estimée pour un noyauK(x) à partir des échan-tillons (xi) peut s’écrire sous la forme :

fK(x) =1

n

n∑i=1

K(x− xi) (2.14)

On voit que d’un point de vue pratique, cela revient à sommer l’influence de chaque échan-tillon, où l’influence prend la forme du noyauK centré sur chaquexi.

Choix du noyau

La forme la plus utilisée de noyau est celle des noyaux isotropes, que l’on peut obtenir àpartir d’un profilk :

K(x) = ck,d k(‖x‖2) , (2.15)

Le profil k(x) est défini pourx ≥ 0. Il doit être positif, décroissant, continu par morceaux, etd’intégrale finie. La constanteck,d sert de normalisation afin queK(x) s’intègre à l’unité.

Afin de pouvoir régler l’échelle du noyau utilisé, à l’instar des méthodes d’espace-échelle,le noyauK peut être paramétré par une matrice de bande passanteH de la façon suivante :

KH(x) = |H|−1/2K(H1/2x) (2.16)

Le choix d’une matrice de bande passante revient à faire subir à l’espace des points unetransformation linéairex 7→ H1/2x, et à utiliser ensuite le noyau isotropeK. Moyennant latransformation des points, la densité estimée par ce moyen est en effet proportionnelle à ladensité estimée en utilisant directementKH.

Pour notre application, nous considérons le cas d’une matrice diagonale où la normalisationimplique chaque dimension séparément :H = diag(h2

1, ...h2d). L’équation2.14, combinée à

l’équation2.15, devient ainsi :

fh1,...hd,K(x) =ck,d

nh1 . . . hd

n∑i=1

k

(((x)1 − (xi)1

h1

)2

+ · · ·+(

(x)d − (xi)d

hd

)2)

, (2.17)

en notant(x)j la je coordonnée du vecteurx. Un cas particulier d’une telle densité est celle del’équation2.10, qui a motivé le recours à la méthode de «mean-shift».

Page 36: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

36 CHAPITRE 2. PRIMITIVES SPATIALES

Nous développons la suite pour le cas d’une matrice proportionnelle à la matrice identité :H = h2I, mais les résultats sont aussi valables pour une matriceH plus générale. Cela revient àavoir un unique paramètreh, qui décide de la taille du noyau à employer. Par analogie avec lesapproches d’espace-échelle, nous appelleronsh paramètre d’échelle dans la suite de l’exposé.

Dans ce cas, la densité s’exprime :

fh,K(x) =ck,d

nhd

n∑i=1

k

(∥∥∥∥x− xi

h

∥∥∥∥2)

. (2.18)

L’utilisation d’un noyau isotrope de façon uniforme sur tout l’espace impose des contraintessur la structure de cet espace : les distances entre points de cet espace doivent être euclidiennes.Lors de l’application pratique, il sera donc important de prendre garde à utiliser un espace munid’une distance la plus proche possible d’une distance euclidienne, une fois la normalisationappliquée.

Expression du gradient estimé

L’estimateur du gradient def , approché par le gradient de la densité estiméef , prend laforme suivante, d’après l’équation2.18:

∇fh,K ≡ ∇fh,K =2ck,d

nhd+2

n∑i=1

(x− xi) k′

(∥∥∥∥x− xi

h

∥∥∥∥2)

. (2.19)

En supposant le profilk dérivable presque partout, il est possible de définir un nouveauprofil g et le noyau associéG.

g(x) = −k′(x) (2.20)

G(x) = cg,d g(‖x‖2) (2.21)

La constante de normalisationcg,d est définie de façon analogue àck,d.En introduisantg dans l’équation2.19, on aboutit à l’expression factorisée suivante :

∇fh,K =1

h2

2ck,d

nhd

[n∑

i=1

g

(∥∥∥∥x− xi

h

∥∥∥∥2)]∑n

i=1 xig(∥∥x−xi

h

∥∥2)

∑ni=1 g

(∥∥x−xi

h

∥∥2) − x

, (2.22)

Le dernier facteur de cette expression est appelévecteur de « mean-shift »:

mh,G(x) =

∑ni=1 xig

(∥∥x−xi

h

∥∥2)

∑ni=1 g

(∥∥x−xi

h

∥∥2) − x. (2.23)

En reconnaissant l’expression de la densité estimée avec le noyauG, le gradient de densitéestimé prend alors la forme :

∇fh,K =2ck,d

h2cg,d

fh,G(x)mh,G(x). (2.24)

Sous une autre forme, on obtient ainsi :

mh,G(x) =h2c

2

∇fh,K(x)

fh,G(x). (2.25)

Page 37: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 37

où c = cg,d/ck,d est une constante dépendant uniquement des noyaux utilisés.Le vecteur de «mean-shift» défini à l’équation2.23est ainsi toujours dirigé dans la direction

du gradient de densité estimée avec le noyauK. Sa norme est de plus modulée par la densitéestimée avec le noyauG, ce qui augmente l’amplitude du déplacement dans des zones peudenses, et ralentit dans les zones plus denses, notamment près d’un maximum local.

Remontée de gradient par «mean-shift»

Les propriétés précédentes permettent de développer une méthode de recherche des modesde la densité estiméefh,K selon le principe de la remontée de gradient. Son point fort est d’es-timer les modes def à partir des échantillonsxi sans estimer la distribution elle-même.

Étant donné un pointy1 initial, on peut former la trajectoire issue de ce point,(yj)j=1,..., partranslations successives selon le vecteur de «mean-shift» :

yj+1 = yj + mh,G(yj). (2.26)

Exprimé en fonction deg,

yj+1 =

∑ni=1 xig

(∥∥∥yj−xi

h

∥∥∥2)

∑ni=1 g

(∥∥∥yj−xi

h

∥∥∥2) . (2.27)

Il apparaît que chaque nouvelle positionyj+1 est une moyenne desxi, pondérés par lenoyauG centré sur l’ancienne positionyj. Ceci permet une implémentation efficace du calculdes trajectoires de remontée de gradient.

Justification théorique

Les expressions vues précédemment font apparaître deux noyaux que nous avons dénommésK et G. A la suite de Cheng [14], nous dirons queK est l’ombredeG, ce qui signifie que le« mean-shift» mh,G est dans la direction du gradient de la densité estimée en utilisant le noyauK.

Cheng montre que cela est équivalent à vérifier que les profilsg etk vérifient la relation2.20sauf en un nombre fini de points, à une constante multiplicative positive près. Ces relations per-mettent de justifier théoriquement l’utilisation du «mean-shift» avec le noyauG, qui correspondainsi à une remontée de gradient de la densité estimée à l’aide du noyau ombreK.

La convergence de la séquence desyi pour des noyaux de profil convexes et décroissants estmontrée par Comaniciu et Meer [15]. Ceci illustre le fait que la recherche de mode par «mean-shift», en tant que méthode de remontée du gradient, possède aussi des propriétés d’adaptationautomatique de la taille du pas de déplacement. Ceci évite en particulier les risques de diver-gence dus à un pas trop grand.

Deux types de noyaux vérifiant les hypothèses de ce théorème présentent un intérêt particu-lier dans notre cadre : le noyau d’Epanechnikov, et le noyau normal.

Le noyau d’EpanechnikovKE, dont le profil est

kE(x) =

{1− x si x ≤ 1

0 sinon ,(2.28)

Page 38: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

38 CHAPITRE 2. PRIMITIVES SPATIALES

présente la caractéristique d’être l’ombre du noyau platKF , qui pondère de façon identique àl’intérieur d’une boule de rayon 1 :

kF (x) =

{1 si x ≤ 10 sinon .

(2.29)

L’intérêt d’utiliser le noyau platKF est d’obtenir la convergence desyj en un nombre finid’étapes. En effet, le nombre de positions issues du moyennage desxi pondérés par 0 ou 1 estfini.

Le noyau normalKN , de profil

kN(x) = exp(−x

2), (2.30)

et ses versions tronquées par produit avec le noyau plat sont quant à eux les seuls noyaux àprofil qui sont leur propres ombres, comme montré dans [14]. Comme tout noyau dont le profilprend des valeurs non discrètes, il conduit à une convergence en un nombre infini d’étapes.

Mise en oeuvre pour la classification

Nous avons vu jusqu’à présent la justification théorique de la méthode de remontée de gra-dient par «mean-shift», ainsi que son application à un unique point de départy1. Les modesrecherchés sont cependant nombreux ; il importe donc de démarrer l’algorithme à partir de plu-sieurs sources.

Dans la suite, considérons le procédé appliqué àm points sources notés(y1k)k=1,...,m. La den-

sité dont on estime le mode est toujours connue par lesn échantillons(xi)i=1,...n. L’applicationdu «mean-shift» à la sourcey1

k conduit à la trajectoire(yjk)j=1,..., qui a pour limitey∞k .

Lorsque l’on prend chaque échantillonxi comme un point sourceyi, on obtient l’appar-tenance des échantillons aux bassins versants de la densité. Lors de la remontée de gradient,la trajectoire issue de chaque échantillon converge vers un des modes de la distribution. L’en-semble des échantillons présents dans le bassin versant d’un mode de la densité voit donc lestrajectoires associées converger vers le même mode.

D’un point de vue pratique, des points seront déclarés converger au même point si leurdistance est en dessous d’un seuil arbitraireε. Ceci répond à deux problématiques. D’une part,les calculs se faisant avec une précision limitée, les erreurs d’arrondi peuvent rendre distinctsdeux points théoriquement identiques. D’autre part, la convergence peut être lente avec desnoyaux non plats, ou être interrompue prématurément par manque de temps. Le seuil joue alorsle rôle d’une heuristique visant à diminuer le temps de calcul. Nous verrons à la section2.3.1en quoi une approche hiérarchique peut aider sur ce point.

Complexité

Au niveau de la complexité, le calcul d’un vecteur de «mean-shift» en un point impliqued’après l’équation2.23l’évaluation de distances euclidiennes, évaluations deg, et des sommes,qui formentO(n) opérations. La dimension est fixe, elle intervient comme un facteur multipli-catif dans la complexité. Ainsi, une mise en oeuvre triviale de la méthode nécessite un nombred’opérations enO(mn), en rappelant quen désigne le nombre de points échantillons, etm lenombre de points sources. En pratique, il est primordial de réduire la complexité pour des appli-cations telles que le traitement d’images, où le nombre de points considérés dépasse facilementles 10000.

Page 39: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 39

Une première amélioration consiste à utiliser un noyau à support borné. Dans ce cas, chaquecalcul de vecteur de «mean-shift» ne dépend que des échantillons situés dans un voisinage dupoint considéré. Des techniques adaptées de recherche dans le voisinage (range search) per-mettent alors de réduire la complexité de la recherche [18]. Le coût total descend alors entreO(m′n) pour les techniques de hachage etO(m′ log(m)n) pour les techniques de rangementhiérarchique, oùm′ est le nombre moyen d’échantillons présent dans le voisinage de chacundes points sources. Le hachage consiste à associer chaque point à une case dont on connaît àl’avance les cases voisines. Il est plus adapté aux dimension faibles et aux rayon faibles, typi-quement dans les deux dimensions d’une image. Le rangement hiérarchique est plus général, etmarche en particulier pour des dimensions plus élevées et des rayons plus étendus. Ces algo-rithmes nécessitent toutefois d’organiser le tri préalable des points. Cette phase coûte le parcoursentreO(m) (hachage) etO(m log m) (organisation hiérarchique), mais elle est effectuée uneseule fois pour l’ensemble de l’algorithme de recherche des modes.

Une autre accélération consiste à effectuer un ré-échantillonnage, qui diminue le nombred’échantillons à considérer. La technique des estimateurs sur grille consiste à remplacer leséchantillons initiaux par des points situés sur une grille régulière, et pondérés en fonction deséchantillons situés dans leur voisinage. Ces points jouent le rôle d’accumulateurs, comme dansun histogramme. Plus l’espacement de la grille est important, plus il y aura de réduction, chaqueaccumulateur regroupant en effet plus d’échantillons initiaux. L’espacement ne devra cependantpas dépasser l’ordre de grandeur de l’échelle du filtreK utilisé, afin que la densité estimée enutilisant les points de la grille approche correctement la densité estimée sur les points originaux.Le gain en complexité est égal au nombre moyen d’échantillons associés à chaque accumula-teur non vide. Pour cette raison, une telle méthode sera efficace lorsque chaque accumulateurcontient soit une nombre important d’échantillons, soit aucun échantillon. Ceci est plus facile-ment atteint lorsque les échantillons originaux sont nombreux, et que l’espace est de dimensionrelativement faible.

Enfin, lorsque le noyaug utilisé pour le «mean-shift» n’est pas plat, les valeurs de son profilpeuvent être précalculées, afin d’en éviter le calcul répété. Ceci est particulièrement intéressantpour le noyau gaussien, qui implique le calcul d’une exponentielle.

2.3.2 Classification hiérarchique en positions et couleurs

Dans notre formulation, nous avons vu que l’espace des positions et couleurs peut êtreétendu en un espace-échelle, en considérantr ou α comme un paramètre supplémentaire. Enfait cette constatation est aussi valable pour un espace-échelle paramétré par un uniqueh, dontr etα sont linéairement dépendants :

r = r0h et α = α0h. (2.31)

Nous allons détailler la façon dont l’extraction des modes peut être effectuée de façon multi-échelle dans un tel contexte.

Espace-échelle d’une densité de positions et couleurs

Le problème de la classification d’un ensemble de points a donné lieu au développement deméthodes de classification par espace-échelle. Leung et al. [47] proposent la classification depoints d’un espaceRn en se basant sur la même densité que définie dans l’équation2.18. Ilsincorporent un paramètre unique d’échelle, qui peut varier continûment, et qui est l’équivalentdeh.

Page 40: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

40 CHAPITRE 2. PRIMITIVES SPATIALES

L’espace-échelle associé à un échantillonnage de pointsxi ∈ Rn est ainsi un espace àn + 1dimensions oùh est associé à la(n + 1)ieme dimension. La densité dans cet espace est :

(x, h) → fh,K(x). (2.32)

Leung et al. montrent que les modes locaux de cette fonction selonx forment des courbessimples dans l’espace-échelle. Il est donc possible de lier les modes locaux defh,K pour deuxéchellesh suffisamment voisines, en recourant à la remontée de gradient à une échelle, à partirde la position du mode détecté dans l’autre échelle.

En partant des points échantillons, il est ainsi possible de construire les courbes des modesassociés lorsque l’échelle augmente. En pratique, les classes sont initialement les points indivi-duels, qui correspondent aux modes de la densité pour un noyau de taille nulle. Les modes à uneéchelle donnée sont obtenus en effectuant une remontée de gradient à partir des modes prove-nant de l’échelle immédiatement inférieure. Lorsque l’échelle augmente les modes se déplacentet se fusionnent : la structure obtenue est hiérarchique. La figure2.10illustre ce procédé dansle cas unidimensionnel.

Hiérarchie des modes

Leung et al. font une distinction entre classification hiérarchique imbriquée (nested hie-rarchical clustering) et classification hiérarchique non imbriquée (nonnested hierarchical clus-tering). Dans le premier cas, les classes dont les modes fusionnent ont un support obtenu parl’union des points associés. L’appartenance est donc dépendante des chemins suivis à travers leséchelles pour aboutir à un mode : un mode est associé aux points correspondant au sous-arbreissu de ce mode, comme illustré à la figure2.10.

Dans le deuxième cas, l’appartenance d’un point à un mode dépend de la densité à l’échelleconsidérée uniquement : les points sont associés aux classes d’après les bassins versants de lafonction de densité à cette échelle. Lorsque l’échelle change, un même point peut être associé àdes modes n’ayant aucun lien entre eux. Il est important de noter que la structure hiérarchiquedes modes est exactement la même dans les deux cas ; la différence tient seulement dans l’as-sociation d’un mode aux points d’origine.

Nous utiliserons la première approche, qui permet une structure hiérarchique non ambiguëau niveau des pixels.

Accessibilité à partir des points originaux

L’approche hiérarchique imbriquée trouve pour chaque échelle un sous-ensemble des modesexistant théoriquement pour cette échelle. En effet, seuls sont détectés les modes accessibles parl’intermédiaire d’une courbe issue des points à l’échelle0. Cependant, les cas où le nombre demodes augmente d’un niveau au suivant est rare, et correspond principalement au cas de cer-taines classes allongées, qui sont coupées en deux lorsque le lissage augmente (voir un exempleen deux dimensions reporté par Lindeberg dans [48, page 203]). Imposer une structure hiérar-chique a pour effet de diminuer le bruit engendré par l’apparition de nouveaux modes, qui estlié au choix du noyau et aux instabilités numériques.

Le noyau gaussien, en particulier, possède la propriété de ne pas créer de modes nouveauquand l’échelle augmente dans le cas uni-dimensionnel [48]. Il n’est pas possible de trouver denoyau qui vérifie cette propriété pour un espace multi-dimensionnel. Des modes peuvent doncêtre créés lorsqu’on augmente l’échelle, comme illustré à la figure2.11. En ne considérant queles modes accessibles depuis les points originaux, on ignore délibérément de tels modes.

Page 41: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 41

0 100 200 300 400 500 600 700 800 900 1000−1

0

1

2

3

4

5

FIG. 2.10 – Illustration dans le cas unidimensionnel de l’extraction hiérarchique des modesd’une densité dans l’espace-échelle. La courbe la plus en bas représente la fonction de densitétrès peu lissée. Les courbes décalées vers le haut sont les densités obtenues par lissage croissant.Un mode à un niveau donné est associé au niveau supérieur au mode résultat de la remontée degradient, ce qui est représenté par une structure d’arbre. L’étendue du bassin versant associé àun mode pour un niveau donné n’est pas strictement identique à l’étendue des modes associéspour un autre niveau.

Page 42: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

42 CHAPITRE 2. PRIMITIVES SPATIALES

0 0.5 1 1.5 2 2.5 30

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

(a) (b)

FIG. 2.11 – Espace-échelle de densité associé à deux points, pour un noyau gaussien (a), etun noyau d’Epanechnikov (b). Sont représentées la densitéfh,K pour différentes échelles, ainsique le trajet des modes associés lorsque l’échelle augmente. Les densités sont décalées vertica-lement afin de mieux visualiser les différentes échelles. En particulier, on peut noter que dansle cas (b) il y a création d’un troisième mode, qui n’était pas présent pour une échelle faible.

Lors de l’extraction effective des modes, les instabilités numériques peuvent aussi amenerà faire apparaître des modes qui n’étaient pas présents à une échelle inférieure. En particulier,lorsque le rayon est assez important, les valeurs de la densité au voisinage d’un mode peuventatteindre la limite de précision numérique disponible, résultant en la détection de plusieursmodes, qui peuvent s’éloigner du mode théorique quand le rayon augmente encore. L’approchehiérarchique conduit à ignorer de tels modes supplémentaires, en choississant uniquement ceuxassociés à des modes déjà présents à l’échelle précédente.

De plus, la recherche des modes pour une échelle intermédiaire a pour effet d’éloigner lescentres des classes des vallées de densité. Ainsi, pour un plateau de grande taille, les centressitués près des bords s’éloignent de ceux-ci dans un premier temps. Ce déplacement les rendmoins dépendants des points associés à d’autres structures que le plateau auquel ils appar-tiennent.

D’un point de vue numérique, plus le gradient est faible, plus la remontée de gradient estlente, et peut être interrompue prématurément, sans avoir atteint un mode théorique de la den-sité. La convergence est assurée en temps fini pour le noyau plat, mais lorsque le rayon estimportant, la combinatoire des points présents dans un voisinage de rayon donné devient trèsgrande, nécessitant en pratique l’arrêt sur des critères d’amplitude du pas de déplacement. Lafusion de nombreux points dans des échelles intermédiaires rend le nombre de points à consi-dérer à une échelle donnée plus faible. En particulier, celle-ci diminue le nombre de couples depoints pour lesquels les trajectoires de remontée de gradient sont très similaires, mais qui nefusionnent pas à cause des limitations numériques que nous venons d’évoquer.

2.3.3 Mise en oeuvre

Les aspects théoriques des méthodes d’estimation de modes à échelle fixe et hiérarchiquesont été longuement discutés. La mise en oeuvre de ces méthodes dans notre cadre est assezsimple, et consiste comme nous l’avons vu précédemment à associer à chaque pixel de l’imageun pointxi dans l’espace de positions et couleursP + C inclus dansR5, puis à estimer les

Page 43: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 43

classes, ou l’arbre de classification. La normalisation intervient dès la définition des points.Pour un pixel de position(x, y) et de couleur(L, u, v), le vecteur associé est :

xi =

(x

r0

,y

r0

,L

α0

,u

α0

,v

α0

)t

, (2.33)

où r0 est le coefficient de normalisation en position etα0 le coefficient de normalisation encouleur.

La densité dont on cherche à estimer les modes est alors celle dont l’expression est donnée àl’équation2.18, c’est à dire celle obtenue par un noyau isotrope de paramètre d’échelle uniqueh. Comme nous l’avons vu à la section précédente, on obtient une classification hiérarchiquedes pointsxi en faisant croîtreh à partir de 0. En pratique, nous avons choisi un échantillonagedes échellesh commençant à une faible valeur deh (typiquement0.05) et étant multipliée àchaque étape par une valeur proche de1 (typiquement1, 1), jusqu’à ce que tous les pointssoient associés au même mode. En considérant la section de l’arbre de classification à uneéchelleh particulière, on peut associer à chaque pixel de l’image l’étiquette correspondant aumode présent à cette échelle et dont le pixel dépend hiérarchiquement. Il s’agit donc d’uneclassification hiérarchique imbriquée.

Afin de mieux en visualiser les implications, voici quelques résultats de segmentation. Lafigure 2.12représente l’image originale. La figure2.13 illustre la classification des pixels parune remontée du gradient par «mean-shift» d’échelleh, ainsi que le résultat obtenu par laméthode hiérarchique à la même échelle. La figure2.14montre le résultat lorsque le «mean-shift» à échelle fixe est suivi de la fusion des modes pour deux paramètres de fusion différents.Dans les deux cas, l’espace des positions et couleurs a été normalisé afin que 1 unité normaliséesurh corresponde à 100 unités de l’espace L*u*v*, et à la hauteur de l’image pour les positions(r0 est égal à la hauteur de l’image, etα0 vaut 100). Les commentaires se trouvent dans lalégende.

FIG. 2.12 – Image originale utilisée pour l’illustration de la segmentation.

Page 44: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

44 CHAPITRE 2. PRIMITIVES SPATIALES

« mean-shift» h hiérarchiqueh

h=

0.1

h=

0.2

h=

0.3

FIG. 2.13 – Segmentation des pixels obtenues par la méthode de «mean-shift» seule, et parla méthode hiérarchique. Le «mean-shift» seul trouve plusieurs modes pour certains plateaux.L’approche hiérarchique, en imposant que le nombre de modes décroisse avec l’échelle, évitede telles instabilités. Il n’est ainsi pas nécessaire de recourir à un regroupement supplémentairelorsque l’approche hiérarchique est utilisée.

Page 45: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.3. CLASSIFICATION PAR RECHERCHE DE MODES 45

« mean-shift» h + fusionh/2 « mean-shift» h + fusionh

h=

0.1

h=

0.2

h=

0.3

FIG. 2.14 – Segmentation des pixels obtenue par la méthode de «mean-shift» de rayonh, suiviede la fusion des modes, pour deux rayons différents. L’étape de fusion corrige la multiplicité desmodes sur un plateau. Lorsque l’on compare le «mean-shift» suivi de la fusion à la méthodehiérarchique (figure2.13), on constate que des structures spatiales analogues sont détectées,avec un décalage dans l’échelle : l’approche hiérarchique détecte les taches pour une échelleplus importante, étant donné qu’elle doit compenser la présence des plateaux.

Page 46: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

46 CHAPITRE 2. PRIMITIVES SPATIALES

2.4 Manipulation d’un dendrogramme

Les classifications hiérarchiques obtenues dans l’espace des positions et couleurs contiennentl’information à plusieurs échelles simultanément. Elles ne sont pas visualisables directement,comme une segmentation à échelle fixe. Nous avons précédemment visualisé celle-ci en coupantl’arbre de classification à une échelle arbitraire. L’espace-échelle ne se limite cependant pas àavoir plusieurs niveaux, mais définit les relations entre les niveaux. La durée de vie d’un noeud,c’est à dire sa présence sur un intervalle d’échelles sans être fusionnée avec un autre noeud estun indice de stabilité. Cet indice peut être utilisé afin de résumer l’arbre de classification despixels (dendrogramme) en une partition, qui met en évidence les structures les plus stables.

La simplification d’un dendrogramme en une partition non hiérarchique a été décrite parWitkin sous la forme d’une «top-level description» [78], et par Wong selon le principe du« longest-lifetime-first» [79]. Le principe général est de choisir dans l’arbre de classification lesnoeuds les plus proches de la racine qui sont suffisamment stables.

Pour la «top-level description», le noeud est conservé si sa durée de vie est supérieure àla durée de vie moyenne de ses fils immédiats. Pour la «longest-lifetime-first», il faut que sadurée de vie soit supérieure à la durée de vie maximale de chacun de ses descendants.

2.4.1 Formalisation

Ces deux règles peuvent être exprimées du point de vue de l’arbre de classification, sous laforme de l’algorithme suivant :

– choix d’un noeud dans l’arbre de classification ;– élimination de celui-ci si le critère de stabilité n’est pas vérifié (siA est un noeud éliminé,

le nouveau parent des fils deA est le parent deA) ;– boucle jusqu’à invariance de la structure ou bien après qu’un certain balayage ait été

réalisé.On remarque que le résultat est encore un arbre. La classification non hiérarchique éven-

tuellement recherchée est alors obtenue en prenant uniquement les noeuds fils de la racine.

2.4.2 «Top-level» : Simplification à un seul niveau

L’algorithme «top-level» décrit par Witkin [78] et repris par Leung et al. [47] est un casparticulier, dans lequel seuls les noeuds considérés pour l’élimination sont ceux de profondeur1 (fils de la racine).

Le test de stabilitéTmoy utilisé est basé sur la moyenne des durée de vie :

Tmoy Le noeud est éliminé si sa durée de vie est inférieure à la moyenne des durées de vie deses fils immédiats.

Dans le cas de hiérarchies correspondant à une segmentation d’une image, la durée de vie,indice de stabilité du noeud, peut être pondérée par l’importance spatiale du noeud, par exempleexprimée sous la forme de son aire. Ainsi, un noeud correspondant à une région de petite tailleinfluence moins le test de stabilité qu’un noeud associé à une plus grande région. Ceci est prisen compte dans le test de stabilitéTmoy2 :

Tmoy2 Le noeud est éliminé si sa durée de vie est inférieure à la moyenne pondérée des du-rées de vie de ses fils immédiats. La pondération est proportionnelle à l’aire de la régionassociée à chaque fils.

Page 47: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.4. MANIPULATION D’UN DENDROGRAMME 47

La figure2.15illustre un problème rencontré lors de l’application directe de cette méthode.Il s’agit de noeuds très stables qui devraient éliminer leurs noeuds parents, mais qui ne sont pasvisibles depuis le premier niveau après la racine. Ainsi, A est de niveau 1, et sa durée de vie estplus grande que la durée de vie de ses fils immédiats B et C. Donc A est conservé, et les noeudstrès stables B1, B2, C1 et C2 sont oubliés.

Il faut souligner de plus que si le pas d’évolution de l’échelle lors de la création de l’arbrede classification est supérieur à la durée de vie de B et C, il est possible de ne pas détecter B etC. Dans ce cas, les Bi et Ci sont fils directs de A, et donc A est éliminé.

En pratique, ce comportement favorise de façon excessive les grandes échelles, se qui se tra-duit par une segmentation en quelques très grandes régions. La structure de l’image est perdueau niveau 1 (voir les exemples plus loin). Cependant, la représentation hiérarchique conserveencore cette stucture dans les niveaux inférieurs de l’arbre.

A

C

B1 B2

C1 C2

R

l(A)

B

l(C)l(B)

l(C1)

l(B1)

FIG. 2.15 – Problème de visibilité lors de l’application de la description «top-level» de Witkin

2.4.3 «Longest-lifetime-first»

L’approche «longest-lifetime-first» peut être décrite par la formalisation précédente, enadoptant un parcours des noeuds de l’arbre par les feuilles d’abord. Le testTmax utilisé est lesuivant :

Tmax : Le noeud est éliminé si sa durée de vie est inférieure à la durée de vie d’au moins l’unde ses fils immédiats.

Le parcours par les feuilles d’abord assure qu’un noeud n’est gardé au niveau 1 que s’il estde durée de vie plus grande que tous ses descendants et tous ses parents.

Les expériences sur le dendrogramme obtenu par classification des positions et couleurs fontapparaître que la méthode «longest-lifetime-first» n’est pas adaptée à cette application. Il y aen effet beaucoup de régions très petites conservées, car voisines avec des noeuds à forte duréede vie.

Par exemple, sur la figure2.16, le noeud A est éliminé, car le noeud C a une plus grandedurée de vie. Ceci a pour effet colatéral de faire remonter le noeud B, malgré sa durée de vie

Page 48: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

48 CHAPITRE 2. PRIMITIVES SPATIALES

très faible. C’est la raison pour laquelle des régions à très faible durée de vie sont sélectionnéesdans l’approche par «longest-lifetime-first» (voir les figures2.17et2.18).

A

B

C

FIG. 2.16 – Remontée de noeuds instables

2.4.4 Simplification multi-niveaux

Pour remédier aux limitations des deux approches précédentes, nous proposons de resterdans le même cadre d’élimination des noeuds. Nous utiliserons le testTmoy2, qui effectue uncompromis entre l’objectif de faire remonter des noeuds à grande durée de vie et celui garderles noeuds de durée de vie plus faible dans des niveaux inférieurs.

Pour sélectionner les noeuds à conserver, il est nécessaire de parcourir chacun des noeuds del’arbre. Deux types de parcours de l’arbre semblent naturels : en partant de la racine, ou bien desfeuilles. Le fait que le parcours soit en profondeur ou en largeur d’abord n’a pas d’influence :ce qui compte est l’ordre vertical, c’est à dire si un noeud est balayé avant ou après ses fils.

L’approche racine d’abord effectue une seule passe en profondeur, en partant de la racine. Lerésultat est le même que la méthode «top-level». Pour que des noeuds stables qui ne se trouvantpas au contact de la racine puissent être sélectionnés, il est donc nécessaire de recommencer unenouvelle passe d’élimination.

L’approche par les feuilles d’abord effectue une seule passe en profondeur, en partant desfeuilles. Des noeuds stables mais situés loin de la racine peuvent alors remonter par l’élimina-tion séquentielle de leurs ancêtres insuffisamment stables. Il peuvent ainsi éventuellement êtresélectionnés au premier niveau de l’arbre de résultat. jusqu’à être éventuellement bloqués parun noeud suffisamment stable.

Cette approche nécessite une seule passe pour obtenir un arbre stable, c’est à dire dont cha-cun des noeuds est stable d’après le test de stabilitéTmoy2. C’est pourquoi nous la privilégionspar rapport à l’approche par la racine d’abord.

Dans le cas de la figure2.15, ces règles aboutiraient à l’élimination de A, B et C.

2.4.5 Exemples

Les figures2.17 et 2.18, montrent les partitions obtenues en considérant les fils de la ra-cine pour chacune des méthodes discutées précédemment. La méthode «top-level» à un seulniveau utilise un testTmoy2, de même que la méthode «top-level» multi-niveaux. Elles mettenten évidence le besoin de contrebalancer la remontée des noeuds instables dans le cadre de lasegmentation couleur. Dans le cas «longest-lifetime-first», la présence de quelques régions très

Page 49: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.5. CONCLUSION 49

stables a en effet entrainé la remontée dans l’arbre de noeuds très instables qui sursegmententl’image. Le résultat sous-segmenté de la simplification à un seul niveau illustre le problème del’accessibilité des noeuds stables à partir de la racine.

Dans le contexte de la simplification d’une hiérarchie issue de la classification dans un es-pace de positions et couleurs, on voit ainsi la nécessité d’adapter les méthodes originales desimplification de hiérarchies existantes. L’algorithme «top-level» partant des feuilles et utili-sant un testTmoy2 permet de faire remonter des noeuds stables situés profondément dans lahiérarchie, contrairement à l’approche originelle du «top-level» de Witkin [78], tout en évitantque des noeuds stables n’entrainent également la sélection de noeuds très instables, ce qui estle cas dans l’approche «longest-lifetime-first» de Wong [79].

mean colordepth = 1

lifetime depth = 1

mean colordepth = 1

lifetime depth = 1

mean colordepth = 1

lifetime depth = 1(a) (b) (c)

image originale

duré

e de

vie

reco

nstr

uctio

n

FIG. 2.17 – Simplification de la hiérarchie de taches de couleur pour l’image 3200 de la sé-quence Mandela. La première ligne représente la reconstruction à partir de la classification ob-tenue, en remplissant chaque région par la moyenne de ses pixels. La deuxième ligne montre ladurée de vie des noeuds conservés (plus sombre = plus stable). (a) «top-level» à un seul niveau(testTmoy2. (b) «top-level» en partant des feuilles, utilisantTmoy2. (c) «longest-lifetime-first».

2.5 Conclusion

Dans ce chapitre, nous avons abordé plusieurs approches de la détection de primitives dansdes images, autour de la notion de tache de couleur et de représentation multi-échelle. Nousavons tout d’abord exploré la théorie de l’espace-échelle pour des images en niveaux de gris.

Page 50: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

50 CHAPITRE 2. PRIMITIVES SPATIALES

mean colordepth = 1

lifetime depth = 1

mean colordepth = 1

lifetime depth = 1

mean colordepth = 1

lifetime depth = 1(a) (b) (c)

image originale

duré

e de

vie

reco

nstr

uctio

n

FIG. 2.18 – Simplification de la hiérarchie de taches de couleur pour l’image 930 de la séquenceblessé. (a) «top-level» à un seul niveau. (b) «top-level» en partant des feuilles, utilisantTmoy2.(c) « longest-lifetime-first».

Page 51: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

2.5. CONCLUSION 51

Ceci a montré l’intérêt d’une analyse multi-échelle qui extrait de façon unifiée des structuresprésentes à plusieurs échelles, ainsi que les liens entre les échelles. Le traitement d’images encouleur ne rentre pas directement dans ce cadre. C’est pourquoi nous avons étendu l’espace-échelle de niveaux de gris aux images couleur, par l’insertion de projections couleurs, qui re-placent le problème de l’extraction de taches de couleur dans un cadre en niveaux de gris. Cesméthodes nécessitent cependant de fixer des paramètres de projection, qui conduisent à plu-sieurs analyses séparées pour détecter les différentes couleurs de taches.

D’autre part, l’exposé de plusieurs approches d’extraction de taches de couleur à échelle fixenous a amené à faire un parallèle entre la classification des positions et des couleurs et la théoriedes images sans ordre local. Dans ce cadre, nous pouvons à la fois détecter des taches de couleurquelconque, tout en ayant des propriétés d’espace-échelle qui permettent l’expression du lienentre les structures détectées à différentes échelles. Nous avons pu tirer parti de méthodes deremontée de gradient par « mean-shift » pour estimer de façon efficace les supports des tachesde couleur, ainsi que leur structure multi-échelle sous la forme d’une hiérarchie. Les liens decette approche avec les méthodes existantes ont été discutés.

Enfin, dans une dernière partie, nous avons vu comment une telle structure hiérarchiquepouvait être exploitée. Dans le cadre spécifique de la recherche d’une segmentation de l’image,les informations de stabilité en échelle associées à chaque tache de couleur permettent ainsid’obtenir une segmentation à échelle fixe adaptée à l’image.

Au chapitre suivant, nous allons voir comment utiliser les taches détectées dans plusieursimages pour produire des trajectoires et une description des mouvements au sein d’une séquencevidéo.

Page 52: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

52 CHAPITRE 2. PRIMITIVES SPATIALES

Page 53: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 3

Création et utilisation de trajectoires

3.1 Estimation de trajectoires

Le suivi temporel cherche à donner une structure temporelle à un ensemble de primitivesspatiales sans liensa priori. La nature des éléments mis en correspondance temporelle est di-verse : points, segments, régions.

Les éléments les plus simples sont les points de l’image. L’estimation de trajectoires peuttenter d’associer à chaque point une trajectoire, ou bien ne considérer que des points particuliers.

Allmen et Dyer [2] calculent ce qu’ils appellent des courbes de flot spatio-temporel ("spatio-temporal flow curves") par intégration du flot de mouvement local dans le temps. L’image ini-tiale est couverte de points qui sont chacun associés à une trajectoire. Ils estiment pour chaquepaire d’images consécutives un champ de mouvement local. Chaque trajectoire est étendue àl’image suivante en suivant ce champ. La qualité des trajectoires dépend fortement de la qualitédu champ de mouvement, et de la possibilité de le calculer. Les exemples montrés sont ainsicomposés d’objets fortement texturés, qui facilitent le calcul du mouvement. Les erreurs d’es-timation peuvent de plus s’accumuler, car les trajectoires sont étendues de proche en proche.L’avantage d’une telle représentation est que, à part dans les zones de découvrement, le blocvidéo est recouvert de façon relativement dense par les trajectoires.

Les méthodes de suivi plus classiques considèrent des primitives extraites dans chaqueimage, ce qui permet d’éviter l’accumulation d’erreurs en recalant les trajectoires sur les don-nées dans chaque image. Le suivi de points d’intérêt en est un exemple.

Les points d’intérêt sont détectés sur chaque image, puis ils sont mis en correspondancetemporelle. Deux types d’hypothèses sont utilisées pour contraindre les correspondances : l’in-variance temporelle des caractéristiques et la continuité temporelle du mouvement.

À chaque primitive est associé un ensemble de caractéristiques destinées à la distinguer desautres. Pour un point d’intérêt, il s’agit des caractéristiques de l’image au voisinage du point,représentées sous la forme d’un "patch", ou condensées dans un descripteur plus résumé. La fe-nêtre choisie est ensuite comparée avec la fenêtre d’un point potentiellement mis en correspon-dance, afin de déterminer la qualité de l’appariement. Dans certains cas la comparaison utiliseun modèle de déformation de la région, telle une déformation affine, qui permet de comparerdes voisinages détectés à des instants éloignés même s’ils ont subi des déformations [67, 69, 5].

La comparaison du voisinage spatial des points n’est en général pas suffisante pour déter-miner de façon fiable les appariements. Des hypothèses supplémentaires sur le mouvement dupoint suivi sont alors nécessaires. Dans certains contextes, tels que le suivi de cibles, les pointsn’ont d’ailleurs pas de caractéristiques associées [73]. Étant donnée une trajectoire extraite jus-qu’à un instant donné, deux types de contraintes sont envisagées. La contrainte de mouvement

53

Page 54: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

54 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

de faible amplitude impose que le déplacement d’une image à l’autre soit bornée. La contraintede régularité du mouvement ne restreint pas l’amplitude du mouvement, mais plutôt les varia-tions dans le comportement de la trajectoire : le point mis en correspondance doit être prochede la position prédite en extrapolant la trajectoire déjà extraite. Un modèle courant consiste àsupposer la vitesse constante.

Enfin, le principe d’exclusion impose qu’une même primitive soit associée au plus à uneseule trajectoire. Cette hypothèse est centrale dans les méthodes qui associent les trajectoiresaux points [17]. D’autres méthodes, telle que le suivi probabiliste [29] traitent l’associationdes points aux trajectoires, et ignorent donc cette contrainte afin de pouvoir supposer chaqueassociation indépendante.

Bretzner et Lindeberg [8] étudient le suivi de primitives à plusieurs échelles. Les objets sontmodélisés par une hiérarchie de primitives rondes («blob») et allongées («ridge»), définiea priori. Cette hiérarchie pose des contraintes supplémentaires sur le suivi. Ainsi, lorsqu’uneprimitive n’est pas détectée, l’information sur les autres primitives permet de prédire la positionapproximative de celle-ci, et d’aider à sa re-localisation lorsqu’elle est détectée à nouveau.

Dans notre cas, une telle informationa priori n’est pas disponible, car le suivi concernel’ensemble des primitives de l’image, et non un objet d’intérêt en particulier. Les hypothèsesutilisables pour le suivi sont ainsi du type de celles utilisées pour le suivi de primitives telles queles points, c’est à dire principalement l’invariance des caractéristiques visuelles et la régularitédu mouvement.

3.2 Suivi temporel de taches de couleur

3.2.1 Caractéristiques des taches

Les taches, de niveau de gris ou de couleur, sont des primitives simples, qui présentent uncertain nombre de bonnes propriétés en tant que marqueurs à suivre. Nous détaillons ici lespropriétés des «blobs» tels que nous les avons définis au chapitre précédent.

Région simple En premier lieu, un «blob» est associé à une région de support, et couvredonc une surface, qui peut être plus ou moins étendue. Le support est généralement de formecompacte, et la formulation du blob permet d’associer naturellement l’ensemble de ce supportà un seul extremum pour un rayon donné.

Stabilité L’extremum associé à un «blob», ainsi que la zone de support, sont relativementstables dans le temps, ayant de bonne propriétés d’invariance par rapport au mouvement, et auchangement global de l’éclairage. Nous détaillons ce point un peu plus loin.

Détection de caractéristiques variées L’approche par suivi de marqueurs est limitée par lapossibilité de détecter les marqueurs dans les images avec une densité suffisante. Par exemple,dans le cas où les images consisteraient en des régions texturées différemment mais de mêmevaleur moyenne, les structures présentes dans les images de luminance aux échelles que nousutilisons pour l’extraction des «blobs» risquent d’être inexistantes.

Par contre, si une primitive est seulement absente par intermittence, à cause d’une instabiliténumérique dans son extraction par exemple, une approche de type filtrage de Kalman permetde compenser ces problèmes de détection.

Page 55: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.2. SUIVI TEMPOREL DE TACHES DE COULEUR 55

Comme nous l’avons vu au chapitre2, la notion de tache de couleur est versatile. Nous avonsainsi détaillé les taches de niveau de gris, et plusieurs types de taches de couleur. Des primitivestelles que des coins, des crêtes (ridge) ou des jonctions peuvent également être extraites avec lamême approche, et représentées de façon analogues sous la forme d’un extremum associé à unerégion de support [50, 49].

Répartition dans l’image Des travaux précédents au sein de notre laboratoire ont concernél’utilisation du suivi de points d’intérêts pour décrire le mouvement dans une vidéo. Ainsi, dans[26], différents types de points d’intérêt sont comparés par rapport à leur stabilité temporelle. Leplus stable est celui de Harris [36]. Malheureusement, cette stabilité se paye par une répartitionpeu homogène des points : les parties de grande variance récoltent la plupart des points, alorsque les parties lisses n’en ont aucun (voir figure3.1). Les «blobs», étant associés à une régionde support, ont une distribution plus régulière sur l’image.

points de Harris «blobs» pour l’échelleσ=8

FIG. 3.1 – Répartition des points de Harris (les 100 meilleurs) et des «blobs» de gaussiennesur une image (42 maxima en noir, 52 minima en blanc). Les points sont concentrés dans leszones fortement texturées et peu présents dans les zones lisses, les «blobs» détectent des zonescontrastées, tels que les yeux, malgré l’aspect lisse.

3.2.2 Analyse qualitative de la stabilité

Comportement pour des mouvements simples La représentation en espace-échelle d’uneimage vue à la section2.1est stable pour toute translation ou rotation. Un redimensionnement setraduit par une translation de l’espace échelle sur l’axe des échelles. Autrement dit, considéronsf etf ′ deux images identiques à une transformation affine restreinte près :

f(p) = f ′(p′) avec p′ = A(p) (3.1)

où A est une transformation 2D affine restreinte (composée de translation, rotation et change-ment d’échelle, mais pas de cisaillement) :

A(p) = sRp + t (3.2)

avecs facteur de zoom,R matrice de rotation dans l’image, ett vecteur de translation dansl’image.

Page 56: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

56 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

Dans ces conditions, les images filtréesL et L′ associées sont identiques, à une compensa-tion du mouvement et du paramètre de filtrage près :

Lσ(p) = L′σ′(p′) avec p′ = A(p) et σ′ = sσ. (3.3)

La figure3.2 illustre sur un exemple simple ces propriétés.

déplacement A

déplacement A+ évènements

déplacement A(facteur d’échelle s > 1)

image f image f ′

σ′

σ

blobs de f ′blobs de f

σ

FIG. 3.2 – Relations entre les «blobs» obtenus à partir de deux imagesf et f ′ identiques àun déplacement affine restreintA. Les «blobs» de l’imagef à l’échelleσ sont identiques à lacompensation du déplacement près aux «blobs» de l’imagef ′ à l’échelleσ′ = sσ. Si l’on resteà échelleσ fixe, lors du passage def àf ′, on voit les mêmes évènements de «blobs» que ceuxsurvenant entre les échellesσ′ etσ de l’imagef ′.

Outre ces propriétés théoriques pour des mouvements simples, les «blobs» sont aussi rela-tivement stables en présence de mouvements déformables.

Stabilité par rapport aux mouvements déformables Un «blob» correspond à un extremumde la carte de caractéristiques (par exemple issue de la luminosité). Il est donc possible de ledistinguer de son contexte spatial par le contraste qu’il possède. L’hypothèse d’invariance quenous faisons donc ici est qu’un tel contraste ne changera pas de nature d’une image à la suivante.Dans le cas de taches en niveau de gris, la nature du contraste sera représentée par une polarité(maximum ou minimum de luminance). Pour une tache de couleur, le contraste est issu dela prépondérance d’une couleur à l’emplacement de la tache, alors que le contexte spatial necontient pas cette couleur.

Cette hypothèse se distingue de l’hypothèse d’invariance des niveaux de gris, communémentadmise dans les méthodes de flot optique ou utilisant la différence d’images déplacées, de la fa-çon suivante : on considère ici une invariance structurelle, au lieu d’une invariance quantitative.Une telle invariance a donc moins de chance d’être mise en défaut, même en cas de variationconcernant l’ensemble de l’image, à partir du moment où le contraste de la tache considérée estsuffisant.

Additionnellement, un extremum est associé à une région de support, qui est contrastéedans son ensemble. Les pixels de la région ne sont pas considérés indépendamment. Dans cecas, les déformations qui peuvent toucher cette région n’ont pas d’influence sur la détectionde la tache. En effet, chacun des points de la région porte la caractéristique qui le différenciede l’extérieur de la région. Ceci amène la stabilité globale de la structure, alors que les pointspeuvent être individuellement touchés par la déformation. Il n’est pas nécessaire de connaîtrela destination précise de chaque point, car l’ensemble de ces points forme alors une région, quiest globalement contrastée.

Page 57: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.2. SUIVI TEMPOREL DE TACHES DE COULEUR 57

Illustration La figure 3.3 illustre le comportement temporel des «blobs» par un exemplecommenté. Dans des cas particuliers, la stabilité peut être perturbée par des évènements dedivision (un « blob » se séparant en deux « blobs » plus petits) ou de fusion (deux « blobs » sejoignent pour former un « blob » plus gros), qui se produisent lorsque l’échelle d’analyse n’estpas adaptée à la taille des entités visuelles détectées. Même dans ces conditions, on constatecependant une bonne stabilité de l’extremum.

14

2

45

6

1

6

2 2

3

1

6

6

5

image 6400. image 6401. image 6402.

FIG. 3.3 – Illustration du comportement temporel des « blobs » à échelle fixe (σ = 10). Lesrectangles en pointillés blancs mettent en évidence des zones intéressantes.(1) : Un « blob » se divise en plusieurs « blobs », puis fusionne à nouveau. (2) : La fin de l’oc-cultation entraîne la création de deux petits « blobs » de polarité opposée, qui grossissent parla suite. Le « blob » clair correspond à une zone qui apparaît réellement, alors que le « blob »sombre est créé par réaction au contraste entre la chevelure et la voiture, qui n’existait pas au-paravant à cause de la chevelure du personnage à l’arrière. (3) : Les « blobs » sombres voisinsvoient leurs zones de support déformées par l’apparition d’un « blob » clair, sans que l’extre-mum associé ne soit trop perturbé. (4) : Phénomène d’ouverture : le « blob » clair entre lesjambes a le même mouvement apparent qu’elles. (5) : Les occultations entraînent aussi des di-visions de « blobs ». (6) Flèches blanches : quand un « blob » se divise, l’extremum associécorrespond souvent à l’extremum de l’un des « blobs » résultants. Ceci peut également êtreobservé dans les rectangles (1) et (5).

3.2.3 Modèle de suivi

Mise en correspondance Le suivi suppose l’invariance de caractéristiques géométriques etde caractéristiques non géométriques des taches de couleur. Concernant la partie géométrique,les positions suivies sont celles des extrema, que l’on a observés stables dans le temps. Les ca-ractéristiques non géométriques sont liées à l’échelle et à la valeur. Pour une tache en niveau degris, la valeur correspond au niveau de gris, pour un «blob» laplacien, de la valeur du laplaciende l’image filtrée, pour une tache de couleur, de sa couleur moyenne. C’est la caractéristiquequi le distingue de son voisinage, et pour laquelle la détection de l’extremum indique qu’il y aun contraste.

D’autre part, nous avons vu qu’un «blob» pouvait se diviser ou que deux «blobs» pouvaientfusionner lorsqu’on se place à échelle fixe. Afin d’éviter d’avoir à traiter ces cas, des «blobs»

Page 58: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

58 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

d’échelles voisines doivent pouvoir être mis en correspondance. Il ne faut cependant pas quedes «blobs» d’échelles complètement différentes soient reliés. L’échelle est donc considéréecomme un invariant supplémentaire du « blob ».

Les contraintes d’invariance des caractéristiques sont mises en œuvre par seuillage sur lesdifférences entre échelles et entre valeurs. Deux « blobs » A et B ne peuvent être mis en corres-pondance que si leurs valeursVA et VB et leurs échellesσA et σB sont suffisamment proches :

‖VA − VB‖ < ∆V (3.4)

et| log

σA

σB

| < ∆σ. (3.5)

Expérimentalement, nous avons choisi∆V = 32 pour les « blobs » du laplacien sur desimages à valeurs dans[0 . . . 255], et∆σ permet l’appariement entre échelles consécutives seule-ment (pour7 échelles réparties selon une progression géométrique entreσ = 8 etσ = 32).

Pour effectuer le suivi de « blobs », nous avons utilisé la méthode de suivi de points d’in-térêt multi-hypothèses présentée dans [17]. Cet algorithme construit des arbres d’hypothèsesd’appariements entre images successives, qu’il élague pour ne conserver que les hypothèsesn’engendrant pas de conflits (deux trajectoires pour une même primitive), et maximisant lescritères de régularité de la trajectoire et d’invariance des caractéristiques liées aux primitives.

Cette méthode présente l’avantage de gérer les initialisations et les terminaisons de trajec-toires, ainsi que les disparitions accidentelles de primitives pendant une ou deux images. Unedisparition pendant un intervalle temporel plus important se traduit par la fin d’une trajectoirelors de la disparition puis la création d’une nouvelle lors de la réapparition. Cela est souhai-table dans notre cadre, car les primitives suivies sont relativement nombreuses et de bas-niveau.Continuer une trajectoire qui aurait été interrompue pendant plusieurs images successives en-traînerait un risque élevé d’apparier des primitives associées à des objets différents. Ces moti-vations justifient aussi le fait de considérer un horizon temporel limité pour l’appariement.

Résultats La figure3.4représente la séquence Mandela, issue d’un corpus de vidéos de l’INA.Cette séquence est un plan, qui représente la descente d’escalier de deux personnages sur unedurée de 500 images. Les images utilisées ont une taille de 352 x 288, et ont été codées auformat MPEG1, à 180,7 ko/s.

La séquence peut être découpée en quatre grandes parties. De l’image 2900 à 2980, lesdeux personnages (Mandela et Chirac) apparaissent à gauche, et se déplacent sur le perron.De l’image 2980 à 3080, il restent immobiles sur le perron, en déplaçant occasionnellementles bras. De l’image 3080 à environ 3370, il descendent les marches, pendant que la caméraeffectue un zoom lentement vers eux. Ils s’immobilisent alors pour se serrer la main jusqu’à lafin de la séquence. Du point de vue de la différence entre les mouvements, la partie 3080-3300voit les personnages se déplacer de plusieurs fois la largeur de l’image par rapport au fond. Lespersonnages ne sont pas toujours à la même distance l’un de l’autre, s’éloignant d’environ 50pixels par rapport à leur position la plus proche. Ils restent cependant côte à côte pendant ladurée de la séquence.

La figure3.5 montre le suivi des taches sur un court intervalle de temps (20 images). Cecourt exemple permet d’illustrer quelques-unes des propriétés des taches pour ce qui est dusuivi. Le résultat du suivi pour le reste de la séquence, plus long, est montré à la figure3.6, lesmêmes propriétés peuvent y être observées.

En particulier, beaucoup de taches sont détectés sur chaque image, dont certains sont in-stables. En éliminant les trajectoires trop courtes, les taches instables sont ignorées. Ceci est

Page 59: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.2. SUIVI TEMPOREL DE TACHES DE COULEUR 59

2900 3000 3100

3200 3300 3400

FIG. 3.4 – Images de la séquence Mandela.

observé particulièrement dans les zones uniformes et peu contrastées. Dans les zones texturéeset présentant un bon contraste, les trajectoires sont nombreuses et cohérentes.

Lorsque le contraste est présent mais que celui-ci correspond à une tache de grande taille,l’extremum peut se déplacer, selon l’évolution de la forme de la tache et les changements dansson voisinage. Si la tache est suffisamment contrastée, la trajectoire ne sera pas interrompue, laprésence d’un contraste suffisant à la détection d’un extremum. Ceci concerne aussi les tachesvictimes d’une occultation. En effet leur support spatial est fortement déformé, ce qui peut en-traîner le déplacement de l’extremum. Tant que le contraste est maintenu, l’extremum continueà être détecté.

Les trajectoires obtenues par suivi de taches possèdent des propriétés différentes des trajec-toires plus classiques obtenues à partir de points d’intérêt. Nous avons en effet vu comment unetache prend appui sur une région spatiale étendue pour sa détection, contrairement à un pointd’intérêt, qui représente une configuration spécifique locale. Ceci donne à la tache une bonnestabilité qualitative dans le cas de régions contrastées de forme compacte, mais sa précision spa-tiale est plus approximative. Ce point devra être pris en compte dans le cadre de la segmentationdes trajectoires par le mouvement à la section suivante.

Page 60: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

60 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

blob

s de

s m

axim

abl

obs

des

min

ima

traje

ctoi

res

image 3180 image 3200

A

BC

A

B

C

FIG. 3.5 – Exemple de «blobs» de laplacien et des trajectoires associées sur l’intervalle 3180-3200. Les trajectoires noires correspondent aux positions des minima, et les blanches auxmaxima. Seules sont affichées les portions de trajectoires définies complètement sur l’inter-valle.(A) : La zone A est bien adaptée à la détection des taches, car elle est composée de nombreusesrégions très contrastées et de forme compacte. On notera le cas du «blob» associé au pantalonblanc : sa trajectoire dévie, pendant que le garde est progressivement occulté par Chirac. Elles’interrompt à l’image 3204, dès que la tache blanche n’est plus du tout visible.(B) : À l’inverse, le personnage de Chirac contient peu de trajectoires, car les taches sur la vestesont peu stables. Deux exceptions concernent la cravate, et la tête de Chirac, qui produisent destrajectoires longues.(C) : Les jambes de Mandela se déforment sur l’intervalle considéré, et une tache claire apparaîtentre les jambes. Le déplacement de l’extremum est perturbé par ces déformations. Malgré cela,le contraste d’ensemble de la région reste présent, permettant la stabilité qualitative de la tache.

Page 61: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.2. SUIVI TEMPOREL DE TACHES DE COULEUR 61

image 3100 image 3200

image 3300 image 3400

FIG. 3.6 – Suivi sur une séquence longue. Seules les trajectoires de plus de 20 images sontaffichées. Le fond, avec les gardes est une région assez texturée, pour laquelle de nombreusestaches sont détectées, et suivies sur leur durée de visibilité (les trajectoires s’interrompent enarrivant sur le bord gauche). Les trajectoires associées aux deux personnages, sont moins nom-breuses au début de la séquence. Ceci peut s’expliquer par deux phénomènes qui se combinent.Au début, les personnages sont plus petits et moins contrastés par rapport au fond, ce qui limitela possibilité de détecter des taches.

Page 62: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

62 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

3.3 Regroupement de trajectoires par le mouvement

Le regroupement de trajectoires s’inscrit dans deux problématiques distinctes.D’un côté, les approches de caractérisation de trajectoires cherchent à trouver une structure

dans des ensembles de trajectoires issues d’observations indépendantes mais de même nature.Ce point de vue apparaît dans les domaines de la reconnaissance du mouvement [12] et del’indexation par le mouvement [13, 60, 24]. Le concept central de ces méthodes est d’établirune mesure de similarité entre mouvements et un modèle (reconnaissance) ou entre deux mou-vements (indexation). Par exemple, les trajectoires issues du suivi de piétons pris par vidéo-surveillance [60] se structurent naturellement par rapport aux chemins possibles que ceux-cipeuvent prendre. Chaque trajectoire constitue ainsi la caractéristique d’une observation d’unenature particulière (cheminement d’un piéton). Dans les deux cas, les classes à obtenir corres-pondent à des types de mouvement, qui sont éventuellement caractéristiques de situations ou decomportements.

D’un autre côté, la segmentation par le mouvement basée sur les trajectoires considère unseul plan vidéo, sur lequel on distingue plusieurs trajectoires, chacune associée à un élémentvisuel distinct de la scène. L’ensemble des trajectoires est en général plus réduit, car limité parle nombre d’éléments saillants à suivre. L’objectif est ici de regrouper les trajectoires corres-pondant à un objet en mouvement par rapport au reste de la scène.

La caractérisation de trajectoires se focalise sur la définition de descripteurs permettant declasser une trajectoire dans un champ de possibilités prédéfinies, ou bien d’estimer une simila-rité de mouvement par rapport à une base de référence. Si une étape d’indexation est prévue,l’information disponible pour la décision est de plus limitée en taille. En segmentation par lemouvement, on connaît tous les paramètres des trajectoires, mais les modèles des classes sontinconnus. La classification se double ainsi de l’estimation des modèles de mouvement de chaqueobjet.

Une seconde différence est le problème du recalage temporel. Lors de la segmentation parle mouvement, les liens temporels entre les trajectoires sont connus. Ce n’est pas toujours le casen caractérisation du mouvement, car l’origine temporelle n’est pas toujours fixée, et le tempodu mouvement n’est pas forcément identique entre une requête et le modèle.

Nous nous intéresserons ici à l’aspect de la segmentation par le mouvement, et supposeronsles trajectoires déjà extraites, par exemple au moyen d’une méthode vue à la section précédente.

3.3.1 Segmentation par classification

Classification de vecteurs de caractéristiques

Allmen et Dyer [2] présentent une approche destinée à l’analyse du mouvement en vuede l’interprétation ou la reconnaissance du mouvement. Leurs travaux se basent cependant surune étape de regroupement des trajectoires par mouvement similaire. L’objectif n’est pas desegmenter les objets eux-mêmes, mais de proposer une première sur-segmentation qui permettede caractériser le mouvement.

Ils estiment la courbure et la pente de chaque trajectoire en approximant celle-ci par unecourbe quadratique sur un intervalle donné. Les trajectoires sont ensuite classifiées par l’al-gorithme des K-moyennes. Ce traitement est appliqué sur une fenêtre glissante, ce qui peutdonner des regroupements différents pour deux fenêtres distinctes. Les évolutions temporellesdes classes donnent des informations sur les évènements d’occultation : en effet, certaines tra-jectoires à proximité de la frontière d’occultation peuvent changer de classe.

Page 63: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.3. REGROUPEMENT DE TRAJECTOIRES PAR LE MOUVEMENT 63

Le modèle de classification utilisé est assez arbitraire, la courbure n’étant pas invariante pourdes mouvements tels que la rotation hors-plan ou le changement d’échelle. De plus, l’estimationdes trajectoires repose sur l’hypothèse d’objets suffisamment texturés. Le mérite de la méthodeest donc moins dans la définition d’un modèle précis de segmentation d’objets rigides, que dansla mise en place d’une méthodologie d’analyse pré-attentive du mouvement, qui tire partie detrajectoires non interrompues et spatialement denses.

Factorisation dans un sous-espace

Une trajectoire extraite d’une vidéo est constituée d’une succession de points(xt, yt)t∈1..n.On peut lui associer un point de l’espaceR2n, composé de la concaténation(x1, ..., xn, y1, ..., yn)des points successifs. Lorsque les trajectoires correspondent à des points physiques d’un mêmeobjet rigide capturés par un modèle affine de caméra (pour laquelle l’effet de la perspective estsupposé linéaire), les points associés font partie d’un même sous-espace de dimension au plus4. Si l’on est en présence de plusieurs objets ayant des mouvements distincts, les sous-espacesassociés ont de fortes chances d’être distincts. Le principe des méthodes de factorisation dansun sous-espace est de réduire l’espace d’analyse de façon à mettre en évidence ces distinctions.

Gear [30], ainsi que Costeira et Kanade [16] estiment le rangk du sous-espace contenantl’ensemble des trajectoires, et y définissent un coefficient d’interaction entre trajectoires, quiprend la forme d’une matrice d’interaction de formeQ. Comme montré par Kanatani [43], pourdes trajectoires non bruitées, le coefficientQij est nul si les trajectoiresi et j appartiennent àdes mouvements rigides distincts, et est égal à 1 sinon.

La segmentation finale est calculée par diagonalisation de cette matrice par blocs. Dans [16],les groupes de trajectoires ayant les meilleures interactions sont fusionnés par un algorithmeglouton. Ichimura [37] opte pour une approche par division.

Prise en compte du bruit Afin de diminuer l’influence du bruit, Kanatani [43] et Wu et al.[81] manipulent des groupes de points, au lieu des liens par paires de points. Kanatani [43] uti-lise une approche agglomérative, où chaque groupe de points est modélisé par un sous-espace,et où les fusions prennent en compte la sélection explicite de la dimension des modèles. Wuet al. [81] utilisent Q afin de produire une sur-segmentation, puis estiment des distances entregroupes. La segmentation finale est obtenue par seuillage de ces distances.

Les méthodes que nous venons de voir reposent sur la possibilité de se placer dans un sous-espace qui permettra de distinguer les sous-espaces associés à chaque classe de mouvement.Cela suppose d’estimer le rang, qui, en présence de trajectoires bruitées, est supérieur au rangdes trajectoires non bruitées. Pour cette estimation, les auteurs recourent à une décompositionen valeurs singulières, et sélectionnent le rang en éliminant les valeurs singulières inférieures àun seuil. Les valeurs singulières inférieures au seuil sont supposées correspondre au bruit, quidoit donc avoir une amplitude inférieure aux différences de mouvement d’une classe à l’autre.

Lien avec la classification spectrale Une interprétation intéressante des méthodes précé-dentes basées sur la matrice d’interactionQ est proposée par Weiss [77], qui fait le lien deces méthodes avec la classification spectrale. La classification spectrale consiste à étudier lesvecteurs propres associés aux valeurs propres les plus fortes d’une matrice d’affinité entre élé-mentsW. En notantc la matrice des vecteurs propres :

c = λWc. (3.6)

Page 64: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

64 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

Les lignes dec associent à chaque élément un vecteur indicateur dans la base propre. Le produitscalaire entre vecteurs indicateurs de deux éléments redonne précisément la matrice d’interac-tion Q.

La factorisation dans un sous-espace est liée à la matrice d’affinitéW obtenue par produitscalaire des coordonnées des trajectoires :

Wij =∑

t

xitx

jt + yi

tyjt , (3.7)

où (xit, y

it) est la position de la trajectoirei à l’instantt.

On voit ainsi que la factorisation dans un sous-espace se ramène à une classification baséesur des affinités où les trajectoires sont comparées deux à deux seulement. Ces affinités prennentla forme peu intuitive du produit scalaire entre les coordonnées, mais occupent néanmoins laplace habituellement dévolue à une similarité, lorsque les algorithmes sont utilisés pour la seg-mentation d’images [66].

Gestion des trajectoires tronquées Pour l’application de la décomposition en valeurs singu-lières, les trajectoires doivent toutes être définies sur le même intervalle temporel, ce qui exclutl’utilisation de trajectoires tronquées. Ainsi, pour une méthode de reconstruction 3D basée surles même principes, Tomasi et Kanade [71] appliquent la décomposition uniquement au sous-ensemble des trajectoires définies complètement. Les trajectoires restantes ne sont ainsi pasutilisées pour l’analyse, mais sont seulement reconstituées une fois la décomposition estimée.

Indépendamment de la notion de trajectoires, ces problèmes sont le pendant de la décompo-sition en valeurs singulières de matrices avec valeurs inconnues. Les approches purement ma-tricielles gèrent le problème en recherchant une matrice de faible rang qui approche au mieuxla matrice incomplète. Cette recherche est assurée par une optimisation itérative aux moindrescarrés [68], ou par une méthode directe, prenant en compte les contraintes issues d’un ensemblede sous-matrices complètement définies [39].

Au final, la décomposition suppose que les valeurs manquantes sont simplement issues dela non connaissance des valeurs, mais que celles-ci ont une réalité. En terme de trajectoire, celarevient à "halluciner" les points manquants, en prolongeant les trajectoires là où elles étaientauparavant tronquées. Cette opération se passe dans un domaine purement mouvement, où lesnotions d’occultation et de sortie du cadre de l’image ne sont pas prises en compte. Seule comptela position théorique de la trajectoire prolongée par un modèle de mouvement estimé à partirdes autres trajectoires similaires.

3.3.2 Segmentation par modèles paramétriques explicites

Vérification d’hypothèses

Les méthodes par vérification d’hypothèses déduisent d’un ensemble réduit de trajectoiresun modèle paramétrique de mouvement, puis valident ou invalident ce modèle en le confrontantà l’ensemble des trajectoires. Dans les méthodes de type RANSAC, la validation a lieu quandun nombre suffisant de trajectoires vérifie le modèle.

Le nombre de trajectoires minimum pour estimer le modèle dépend du nombre de para-mètres de celui-ci. Un des avantages de la méthode est d’être très souple quand au choix du mo-dèle de mouvement utilisé. En pratique, le modèle affine permet de rendre compte de la plupartdes mouvements visuels [5], mais lorsque l’hypothèse de rigidité est bien vérifiée, des modèlesprenant en compte la perspective peuvent être aussi facilement employés [72]. La connaissance

Page 65: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.3. REGROUPEMENT DE TRAJECTOIRES PAR LE MOUVEMENT 65

des trajectoires sur un nombre élevé d’images permet d’ailleurs une meilleure stabilité de l’es-timation de tels modèles.

Cette méthode est robuste auxoutliers. En effet, en choisissant des ensembles contenant peude trajectoires, on augmente les chances de considérer des trajectoires correctes, et correspon-dant au même mouvement. Ce n’est pas le cas lorsque l’ensemble des trajectoires est utilisé, carles données erronées sont alors incluses dans l’estimation du modèle.

Pour atteindre cette robustesse, il est nécessaire d’avoir des connaissancesa priori sur lebruit et sur la scène. Il faut ainsi fixer un seuil déterminant si une trajectoire vérifie le modèleou non, ce qui suppose la connaissance de l’amplitude du bruit. Ensuite, le seuil indiquant lenombre minimal de trajectoires pour la validation dépend du type de scène observée, et de ladensité des trajectoires.

De plus, l’estimation du modèle de mouvement sur un nombre faible de trajectoires posedes problèmes de sensibilité au bruit. Ceci est à rapprocher des heuristiques communémentchoisies pour la phase d’estimation initiale du modèle. En effet, comme noté dans [5] et [72],des trajectoires proches spatialement ont plus de chance d’appartenir au même mouvement. Cesauteurs choisissent donc préférentiellement des ensembles de trajectoires proches spatialementpour estimer les modèles. Ceci a des effets positifs : le nombre d’ensembles à tester avant detrouver un modèle valide est diminué ; deux mouvements de translation distincts ont moins dechance d’être confondus avec un mouvement unique de rotation [5]. Mais dans le même temps,ce choix entraîne une augmentation de l’instabilité. En effet, pour des modèles de mouvementcomportant des paramètres de degré supérieur à 1 (impliqués dans la rotation, le zoom, la pers-pective), le bruit observé a d’autant plus d’importance que les trajectoires utilisées sont prochesspatialement.

Modèles à mélanges de lois

L’approche probabiliste de la segmentation par le mouvement se base sur un processus degénération des observations à deux étages : chaque trajectoire est associée à une classe de mou-vements, et chaque classe possède un jeu de paramètres définissant son modèle de mouvement.Étant donné un jeu de paramètres, on connaît la probabilité pour toute trajectoire d’être le ré-sultat de ce modèle. Ainsi, pour un modèle àN classes, il s’agit d’estimer les paramètres desmodèles de mouvement de chacune des classes, ainsi que les associations des trajectoires auxclasses.

Torr et Zisserman [72] appliquent cette approche à la segmentation par le mouvement de tra-jectoires extraites de trois images. La formulation s’étend naturellement à plus d’images, ce quidevrait augmenter la qualité des résultats, dans la mesure où plus d’information est disponible.Ils utilisent une approche par Estimation-Maximisation (EM), classique pour l’optimisation demodèles à mélanges de lois. Cet algorithme offre de bons résultats grâce à une approche parraffinements successifs des labélisations et des paramètres. Elle nécessite cependant une ini-tialisation proche du résultat, et la connaissance du nombre de classes. Ces points sont traitésgrâce à une méthode RANSAC.

Par rapport aux méthodes précédentes utilisant un modèle explicite, l’approche probabi-liste propose une modélisation unifiée, qui cherche à expliquer l’ensemble des observations, etnon pas une classe de mouvement après l’autre. En particulier, cette formulation institue unecompétition entre les classes pour la possession des trajectoires, qui assure que des trajectoiresambiguës ne soient pas affectées à une classe sans possibilité de changement.

Page 66: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

66 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

3.4 Regroupement de trajectoires de longueurs variées

Nous étudions ici plus en détail le problème de la prise en compte de trajectoires de lon-gueurs variées. En pratique, il est en effet difficile d’obtenir des trajectoires qui soient toutescomplètes sur l’intervalle temporel d’une séquence. Cela tient à la présence d’occultations no-tamment, et aussi aux instabilités lors du suivi, qui génèrent des interruptions des trajectoires àtout moment. Il n’y a ainsi parfois aucune trajectoire qui soit complète du début à la fin de laséquence considérée.

Si l’on désire analyser un plan entier du point de vue du mouvement, il est donc nécessairede prendre en compte l’ensemble des trajectoires, et pas seulement celles qui sont complètes.

3.4.1 Discussion sur les approches précédentes

Vue d’ensemble

Dans les approches par classification (directe, ou après factorisation dans un sous-espace),chaque trajectoire est associée à un vecteur de paramètres. Ces vecteurs sont ensuite regroupéspour obtenir les classes de mouvement. La spécificité de l’approche par factorisation est dedéfinir ces vecteurs après une diminution de dimension qui fait mieux apparaître les classes.

Dans les approches par modèle de mouvement explicite, il existe deux étages qui passentd’un type d’inconnues à l’autre. Les paramètres de mouvement peuvent être estimés à partird’une labélisation (issue d’une initialisation ou d’une hypothèse). La labélisation peut être in-duite des paramètres de mouvement en étudiant l’erreur de prédiction du modèle sur chaquetrajectoire. Cette phase peut conduire soit à un test de validation des paramètres, soit à un raffi-nement de la labélisation.

Dans tous les cas, l’expression des paramètres de mouvement prend la forme de la concaté-nation des paramètres de mouvement pour chaque image. Pour les approches par classification,cela implique que chaque trajectoire doit être associée à des paramètres de mouvement sur l’en-semble de la séquence. Pour les modèles explicites, cela doit être vrai pour chaque classe demouvement.

Ainsi, les modèles explicites ne nécessitent pas en théorie que chaque trajectoire prise in-dividuellement soit complète. En effet, l’étape d’estimation des paramètres de mouvement estindépendante pour chaque paire d’images. Il est donc possible d’estimer des paramètres demouvement sur un intervalle temporel étendu, au besoin en composant les paramètres estiméssur des paires d’images consécutives. La seule limitation est le nombre de trajectoires présentessur chacune des paires d’images, qui doit être suffisant par rapport au nombre de paramètres àestimer. L’étape de labélisation ne nécessite pas de trajectoires complètes non plus. En effet, ilest toujours possible de comparer une trajectoire incomplète au modèle de mouvement en neconsidérant ce modèle de mouvement que sur la durée d’existence de la trajectoire.

Dans le cadre de la classification, la non-définition d’une trajectoire sur une image est consi-dérée comme un manque de données. C’est à dire, la trajectoire a bien une position, mais celle-cinous est inconnue. Nous nous focalisons à présent sur cette approche, afin de dégager des traitstypiques de la segmentation en présence de trajectoires tronquées.

Hallucination de données manquantes

La méthode introduite par Jacobs [39] est utilisée pour la décomposition en valeurs singu-lières de matrices incomplètes. Elle hallucine les données manquantes, en prenant en compte

Page 67: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 67

des sous-matrices complètement définies. L’hallucination repose sur le principe suivant : l’ana-lyse sur un sous-ensemble de trajectoires complètes sur un intervalle réduit permet de déduiredes liens de compatibilité plus ou moins forts entre les trajectoires. En dehors de l’intervalleconsidéré, les trajectoires ont des longueurs variées. Les trajectoires les plus courtes peuventêtre complétées virtuellement, en se basant sur les trajectoires plus longues qui leurs sont com-patibles.

Le choix des sous-matrices nécessite un compromis entre deux facteurs : le nombre de tra-jectoires et leur longueur. Ainsi, plus on considère un intervalle temporel étendu, moins onprendra en compte de trajectoires. A l’inverse, pour avoir un plus grand nombre de trajectoirescomplètes, il faut considérer un intervalle temporel plus réduit. La longueur de l’intervalle a uneinfluence sur la possibilité de discriminer les mouvements. Ainsi, pour un intervalle très court,il est plus difficile de distinguer des mouvements distincts, car on dispose de moins d’informa-tions. Dans ce cas, il y a le risque de compléter des trajectoires de façon erronée en se basantsur des compatibilités peu discriminantes (voir figure3.7).

ambiguitéprolongements incorrects

espa

ce

temps

espa

ce

tempsintervalle d’analyse

espa

ce

temps

espa

ce

tempsintervalle d’analyse

FIG. 3.7 – Hallucination de trajectoires basée sur la compatibilité dans un intervalle temporel oùtoutes les trajectoires sont complètes. Rangée du haut : exemple où l’intervalle est suffisammentlarge pour une bonne discrimination des mouvements. Rangée du bas : exemple où l’intervalletemporel réduit entraîne une ambiguïté sur les mouvements. Colonne de droite : en pointillé, lesprolongements des trajectoires courtes basées sur les trajectoires compatibles.

Recouvrement temporel

Les méthodes par hallucination fixent au départ un intervalle temporel d’analyse, et com-plètent virtuellement les données manquantes au sein de cet intervalle. Elles cherchent par làà rendre chaque trajectoire comparable à un modèle défini sur l’ensemble de l’intervalle. Nousavons vu que la reconstruction des données manquantes d’une trajectoire repose en fait sur lasimilarité de cette trajectoire avec les trajectoires présentant une intersection temporelle aveccelle-ci.

Le regroupement de deux trajectoires n’ayant pas d’intersection temporelle repose donc sur

Page 68: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

68 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

des trajectoires tierces : des trajectoires similaires à la première trajectoire permettent de lacompléter, jusqu’à ce que celle-ci soit suffisamment longue pour pouvoir être comparée à ladeuxième trajectoire. La figure3.8représente ce phénomène dans un cas simple, où une mêmetrajectoire intermédiaire B a une intersection temporelle avec les deux trajectoires à regrouperA et C.

La prolongation de A est construite par imitation des trajectoires compatibles (en tenantcompte des trajectoires compatibles transitivement). Il est donc qualitativement équivalent decomparer B avec la prolongation de A, ou avec les trajectoires compatibles avec A.

AB

C

temps

espa

ce

similaritésfortes

trajectoireinterruption de

FIG. 3.8 – Principe de regroupement de trajectoires temporellement disjointes par la présencede trajectoires intermédiaires. Les trajectoires A et C peuvent être regroupées dans la mêmeclasse grâce à la présence de la trajectoire intermédiaire B, qui a un mouvement compatible à lafois avec A et C.

Taille de l’intervalle temporel

Baldi et al. [5], utilisent les déplacements entre deux images éloignées, en argumentant quecela rend plus évidente la segmentation. En effet, pour des objets dont le mouvement relatifreste toujours sensiblement dans la même direction, l’amplitude du déplacement relatif est pro-portionnelle à l’écart temporel utilisé pour estimer le déplacement. Il est donc nettement plusvisible lorsque cet écart est important.

Cette augmentation des différences entre les mouvements est bien sûr à comparer avec lebruit sur la position instantanée des trajectoires.

Ce bruit a plusieurs origines. En premier lieu, il peut provenir de l’extraction des primitives,à cause d’instabilités numériques ou d’ambiguïtés dans le choix de la position représentative.Cette erreur est de l’ordre du pixel pour des primitives telles que les points d’intérêt, mais peutatteindre plusieurs pixels pour des primitives plus étendues telles que les taches de couleur.Le bruit a dans ce cas une amplitude à peu près constante, quel que soit l’intervalle temporelsur lequel sont considérés les déplacements. Un intervalle temporel plus étendu a donc plus dechances de voir un écart de déplacement plus élevé, et donc une baisse relative de l’influencedu bruit.

Deuxièmement, ce bruit peut être la conséquence d’un modèle mal adapté à la réalité de lascène. L’erreur observée est alors dépendante du cas particulier. Ainsi, pour un objet en rotationautour de son centre analysé à travers un modèle de translation, l’erreur augmente avec l’écarttemporel tant que l’objet n’a pas accompli un demi-tour. Le fait de considérer un intervalletemporel étendu peut aggraver ce bruit, aussi bien que le diminuer. La figure3.9illustre ces deuxcas. Si l’objet en question est de grande taille et tourne d’un angle faible, le bruit augmenteraavec la taille de l’intervalle (cas (a)). S’il a de plus une translation faible, on ne peut pas le

Page 69: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 69

discerner d’un fond immobile. À l’inverse, s’il est de faible dimension et se déplace en mêmetemps qu’il tourne, le modèle peut cependant capturer la translation (cas (b)). S’il se déplacede plus d’un diamètre, il est alors possible de discerner l’objet du fond par sa translation, lebruit dû à la rotation étant borné par la taille de l’objet. On a ici l’exemple d’un mouvementnon segmentable avec le modèle considéré sur un intervalle court, mais qui le devient quandl’intervalle est plus long.

(a) (b)

FIG. 3.9 – Bruit dû à un modèle mal adapté, cas d’un objet animé d’une rotation combinée avecune translation, analysé avec un modèle de translation. (a) : Objet de grande taille tournant. Lesvecteurs de déplacement sont de moins en moins similaires à mesure que l’intervalle d’analyses’allonge. La différence de mouvement par rapport à un fond immobile diminue. (b) : Objetde petite taille tournant et se déplaçant. Les vecteurs de déplacement ont au maximum unedifférence égale à la taille de l’objet. Par le déplacement, la différence de mouvement avec unfond immobile augmente quand l’intervalle d’analyse s’allonge.

3.4.2 Analyse par fenêtres

Principe

Les approches précédentes considéraient l’intervalle temporel total de la séquence, et hal-lucinaient au besoin les trajectoires incomplètes. Nous avons mis en avant le fait que cettereconstruction n’apporte pas d’information supplémentaire par rapport aux trajectoires incom-plètes. L’information réellement disponible provient de l’analyse, au sein d’un sous-intervalle,des compatibilités entre les trajectoires qui sont complètes sur ce sous-intervalle.

La méthode que nous proposons se base sur cette observation. Les trajectoires sont analyséessur un ensembleI de sous-intervalles de la séquence, afin de déterminer sur chacun les distancesentre trajectoires. Dans un deuxième temps, ces distances sont combinées pour donner lieu àune classification des trajectoires globale de la séquence, ce que résume la figure3.10.

Cette approche rentre pleinement dans le cadre de l’analyse de relations spatio-temporellesau sein d’un ensemble de primitives (trajectoires), en particulier à travers la relation exprimantune distance entre trajectoires basée sur le mouvement.

Dans ce contexte, on voit des liens de deux types : les liens temporels découlent implicite-ment de la représentation des trajectoires par un vecteur de positions évoluant dans le temps ; lesliens spatiaux sont définis par les similarités entre trajectoires. Il s’agit d’un lien synchrone, quiconsidère des morceaux de trajectoire de même étendue temporelle. Tout regroupement spatio-temporel de trajectoires sans intersection temporelle passe par les liens de compatibilité avec destrajectoires intermédiaires, et par les liens temporels au sein de ces trajectoires intermédiaires.

Ce cadre pose plusieurs questions, que nous étudierons successivement : le choix des sous-intervalles, le choix de l’analyse de compatibilité, le choix de la méthode de combinaison des

Page 70: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

70 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

entre les trajectoires

intervalles d’analyse

combinaison

classification des trajectoires

temps

esp

ace

distances

des distances

FIG. 3.10 – Principe de la classification des trajectoires par fenêtres. Les dissimilarités du mou-vement des trajectoires sont exprimées sous la forme de distances, qui sont estimées sur unensemble d’intervalles d’analyse. La prise en compte combinée de ces distances permet uneclassification sur l’ensemble de la séquence.

compatibilités et de classification.

Choix des sous-intervalles

La présence pour chaque objet d’un nombre suffisant de trajectoires non interrompues estune condition nécessaire pour que ceux-ci ne soient pas sur-segmentés temporellement. En par-ticulier, il est important que suffisamment de trajectoires se retrouvent d’un intervalle d’analyseau suivant. Afin de recouvrir l’ensemble de la séquence, nous considérons un ensemble d’inter-valles de longueur identique, et décalés temporellement d’une valeur fixe.

Pour des intervalles courts, le comportement instantané est mis en avant, ce qui présente plusfacilement des ambiguïtés, car moins de données sont disponibles pour l’analyse. Ceci permetde prendre en compte un nombre plus important de trajectoires, mais produit plus de mesuresnon pertinentes dès que la segmentation est ambiguë sur un court intervalle de temps.

Pour des intervalles longs, le comportement est moins ambigu, mais sur un nombre de tra-jectoires plus réduit. Le risque de ne pas pouvoir faire de lien temporel dans une classe de mou-

Page 71: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 71

vement par manque de trajectoires suffisamment longues se présente alors. Certaines classespeuvent aussi tout simplement ne pas avoir de trajectoire de la longueur requise.

De plus, pour une taille d’intervalle déterminée, le décalage entre intervalles peut prendreplusieurs valeurs, comme illustré à la figure3.11. Si ce décalage est égal à la longueur del’intervalle, l’analyse aura lieu sur des intervalles consécutifs. Un décalage moins importantconduit à des intervalles superposés, générant ainsi une plus grande redondance dans l’analysedes similarités de mouvement.

Dans une optique de qualité des résultats, ce décalage est préférablement choisi le plus faiblepossible. On obtient ainsi une analyse analyse plus complète. Si le décalage est important, il ya en effet un risque que deux trajectoires coexistant pendant la durée choisie ne soient pascomparée, ce qui provoque une dépendance des résultats au choix de l’origine temporelle dessous-intervalles. En pratique, nous avons utilisé un décalage inférieur à la moitié de la longueurdes sous-intervalles.

intervallesconsécutifs

intervallesdécalés

décalage

FIG. 3.11 – Exemples de placements des intervalles d’analyse.

Mesure de compatibilité par dissimilarité

Nous nous basons sur une distance par paire de trajectoires. Le fait de se baser sur unedistance entre trajectoires permet d’exprimer des modèles simples de mouvement en translationet rotation. Cette distance est une dissimilarité de mouvement : deux trajectoires ayant unedistance faible ont un mouvement similaire, mais peuvent être spatialement éloignées.

Dans ce qui suit :– xi(t) dénote la position de la trajectoirei à l’instantt,– eij(t) dénote l’écart spatial vectoriel entre les trajectoiresi et j à l’instantt :

eij(t) = xi(t)− xj(t), (3.8)

– la distance entre les trajectoiresi et j sur l’intervalle d’analyseT est notéedT (i, j), quenous abrégerons end(i, j) pour ce paragraphe,T étant fixé.

Le modèle de translation suppose l’invariance des positions relatives des positions des tra-jectoires à chaque instant, donc deeij. La translation est uniforme, c’est à dire la même enchaque position spatiale, mais pas nécessairement constante dans le temps. La vitesse peut va-rier dans le temps, à condition d’être identique pour tous les points d’une même classe au mêmeinstant.

Page 72: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

72 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

La distance associée mesure les variations de cet écart à la moyenne sur l’intervalle :

dtr(i, j) = moyt∈T

∥∥∥∥eij(t)−moyu∈T

(eij(u))

∥∥∥∥ . (3.9)

Le modèle de translation plus rotation correspond à un mouvement rigide 2D qui préserveangles et distances. Celui-ci repose sur l’invariance des distances entre les trajectoires‖eij‖. Ils’agit d’un mouvement rigide 2D qui préserve angles et distances.

dtr+rot(i, j) = moyt∈T

∣∣∣∣‖eij(t)‖ −moyu∈T

‖eij(u)‖∣∣∣∣ . (3.10)

Ces mesures sont définies de façon identique siT , au lieu d’être un intervalle, est un en-semble quelconque d’instants de la séquence. On peut ainsi imaginer une analyse sur un sous-échantillonnage temporel de la séquence. Une telle analyse réduit l’influence des mouvementssur des échelles de temps faible, pour ne prendre en compte que les évolutions plus lentes.

LorsqueT est réduit à deux images, ces expressions reviennent à étudier les vecteurs dedéplacement d’une image à l’autre. En effet, dans ce cas, en notant∆t l’écart temporel entre lesdeux images :

dtr(i, j) =∥∥ eij(t0 + ∆t)− eij(t0)

∥∥, (3.11)

etdtr+rot(i, j) =

∣∣ ‖eij(t0 + ∆t)‖ − ‖eij(t0)‖∣∣. (3.12)

Le cas particulier où∆t = 1 correspond à l’utilisation des vecteurs de déplacement instantanémesurés entre deux images consécutives. En pratique, nous avons utilisé les expressions3.9et3.10, qui prennent en compte l’ensemble des informations présentes sur un intervalle temporel.

Évolution de la méthode Notons que l’utilisation d’une distance entre trajectoires ainsi que ladéfinition de fenêtres d’analyse sont des évolutions par rapport à une première version de notreapproche publiée dans [53]. Cette dernière considère en effet une similarité entre trajectoiresobtenue par inversion des distances. De plus, l’estimation de la similarité a lieu sur la durée decoexistence entre deux trajectoires, au lieu d’une durée fixe sur chaque intervalle. Les raisonsde ces changements sont les suivantes.

Le calcul d’une distance entre trajectoires ne nécessite aucune informationa priori sur ladissimilarité attendue entre trajectoires de la même classe de mouvement. Les trajectoires simi-laires sont celles qui ont une distance faible, et la dissimilarité n’est pas bornée. Au contraire,notre mesure de similarité possédait une borne supérieure correspondant à deux trajectoires par-faitement similaires en terme de mouvement. Il se produit un effet d’écrasement des similaritésassociées à des trajectoires non parfaitement similaires autour de 0. Il y a une grande plagedisponible pour différencier "très similaire" de "légèrement similaire", mais peu de différencesentre "légèrement similaire" et "dissimilaire". La majorité des trajectoires sont pourtant dans ledeuxième cas.

La deuxième raison concerne l’intervalle sur lesquels les similarités étaient estimées. Dansun cadre où l’intervalle d’analyse est l’intervalle de coexistence entre deux trajectoires, sa lon-gueur varie selon le couple de trajectoires considérées. Lors de la comparaison des similaritéspour décider des regroupements, interviennent donc des similarités estimées sur des intervallesde longueurs variées. La similarité étant basée sur une évaluation globale des comportements,les comparaisons sont ainsi faites entre entités de nature différente, dépendant de chaque casparticulier de recouvrement temporel. Lorsque les trajectoires ont peu de coexistence tempo-relle, l’incertitude sur la similarité est grande. Une pondération permet d’éviter de considérer

Page 73: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 73

les coexistences trop courtes. Par contre, la durée de coexistence introduit un biais dans l’esti-mation de la similarité : sur un intervalle court, la similarité a plus de chance d’être bonne quesur un intervalle plus long. Les regroupements privilégient donc les coexistences entre trajec-toires courtes, au détriment des trajectoires plus longues, qui sont pourtant un meilleur choix enterme de continuité temporelle.

Combinaison des distances issues d’intervalles distincts

L’analyse par fenêtres de la similarité entre trajectoires permet de comparer des trajectoiressans que celles-ci soient toutes définies sur l’ensemble de la séquence. Pour deux trajectoiresdonnées, elle fournit cependant plusieurs mesures de distance entre elles, qui correspondentchacune à un intervalle d’analyse. Ces mesures ne sont donc pas forcément identiques, ni mêmecohérentes entre elles.

Deux trajectoires ayant un comportement similaire sur un intervalle et un comportementdissimilaire sur un autre, doivent être jugées dissimilaires. En effet, il est possible que dansle cours de la séquence le mouvement de deux objets soit similaire pendant un moment, maisque ces objets soient indépendants, ce qui est observé sur le second intervalle. L’intervalle detemps pendant lequel ils ont un mouvement similaire présente ainsi une forte ambiguïté pour lasegmentation du mouvement.

D’autre part, lorsque deux trajectoires ont une durée de coexistence assez faible, mais per-mettant néanmoins l’analyse sur au moins un intervalle, l’expression de leur dissimilarité nepeut se baser que sur les quelques mesures disponibles. Une distance faible peut être la consé-quence du fait que les deux trajectoires appartiennent à la même classe de mouvement, ou bienseulement que le mouvement est ambigu sur l’intervalle d’analyse. Il n’est donc pas possible depénaliser le fait que peu de mesures soient disponibles, au risque de pénaliser le regroupementde trajectoires de la même classe.

Le calcul du maximum des distances disponibles répond à ces constatations. Cet opérateurpermet en effet de ne considérer que l’intervalle d’analyse sur lequel on mesure la dissimilaritéla plus forte, évitant ainsi de prendre en compte un éventuel intervalle où il y aurait une am-biguïté. De plus la distance combinée ne pénalise pas arbitrairement les couples de trajectoiresayant peu de recouvrement temporel.

Classification

Il nous semble que l’estimation du nombre d’entités est difficile sur la base de caractéris-tiques de bas-niveau uniquement (en particulier à cause de la présence d’objets déformables).Il serait donc souhaitable que la structure obtenue soit hiérarchique, ce qui ne nécessite pas defixer un nombre d’entitésa priori. La hiérarchie permet de déterminer une classification pourun nombre arbitraire de classes.

Nous nous basons sur une méthode de classification par agglomération hiérarchique [25].L’initialisation de l’algorithme consiste à définir une classe par trajectoire :Ci = {i}. Puis nousrépétons l’étape de fusion élémentaire, où les deux classes les plus similaires sont remplacéespar leur union. Cette méthode simple produit une hiérarchie, dont les noeuds terminaux sont lestrajectoires, et dont chaque noeud interne correspond à une classe, constituée par la fusion dedeux classes de niveau inférieur.

Notre contexte d’étude nous amène à utiliser une distance entre classes adaptée, afin deprendre en compte le fait que certaines distances entre trajectoires ne sont pas connues.

Page 74: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

74 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

Discussion sur la définition des distances entre classesPlusieurs expressions de la distanceentre classes sont utilisées classiquement dans un cadre de segmentation hiérarchique [25].Celles se basant sur la distance entre éléments combinent ces distances par une moyenne, unminimum, ou un maximum.

La moyenne estime la distanced(C, C ′) entre les classesC et C ′ en prenant en comptetoutes les distancesd(i, j) possibles entre une trajectoirei deC et une trajectoirej deC ′ :

d(C, C ′) = moyi∈C,j∈C′

(d(i, j)). (3.13)

Une telle expression est intéressante du point de vue de la complexité, car le calcul des dis-tances d’une classe issue d’une fusion peut être effectué récursivement en fonction des distancesde ses sous-classes.

Les distances non définies posent un problème dans ce cadre. En particulier, si l’on combineles distances selon la formule (3.13), considérons l’exemple de la figure3.12. Les classes A,B et C sont déjà formées. Les couples de trajectoires(Ai, Bj)i∈2,3,4j∈2,3 interviennent dans ladécision de regrouper A et B, bien que n’ayant pas de coexistence temporelle.

Leur associer une distance arbitraire biaise alors les regroupements. Si cette distance estélevée, cela favorise le regroupement des trajectoires présentes au même moment, même sicelles-ci ont des comportements très différents, par rapport à des trajectoires se situant dansune continuité temporelle. Si cette distance est faible, cela pénalise le regroupement de classesprésentes au même moment, pour lesquelles on connaît bien les différences de mouvement, auprofit de classes ayant peu de trajectoires comparables.

A4 A1

A2A3

C1C2C3

B1

B3B2

coexistence de A1 et B1 temps

espa

ce

FIG. 3.12 – Problème du non recouvrement temporel des trajectoires pour la classification. Enassignant une similarité nulle entre trajectoires ne coexistant pas temporellement, les trajectoiresdénotées B risquent d’être regroupées avec les trajectoires C, bien qu’étant vraisemblablementplus proches des trajectoires A. Note : une seule dimension d’espace est représentée ici.

Dans ces conditions, on définit la pertinenceW (i, j) d’une distance entre deux trajectoiresi et j. Cette pertinence doit en particulier être nulle pour des trajectoires sans recouvrementtemporel. Cela empêche la prise en compte de la distanced(i, j) dans ce cas là, et évite ainsi derajouter un biais dans le calcul des distances entre classes contenant ces trajectoires.

La distance entre classes est modifiée, de façon à pondérer dans la moyenne la similarité dechaque couple de trajectoires(i, j) par sa pertinence :

d(C, C ′) =

∑i∈C,j∈C′

W (i, j)d(i, j)∑i∈C,j∈C′

W (i, j)(3.14)

Page 75: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 75

et l’on définit de plus la pertinence de la distance entre classes :

W (C, C ′) =∑

i∈C,j∈C′

W (i, j) (3.15)

Ces expressions se prêtent toujours à une mise en oeuvre récursive, qui évite de revenir auxdistances entre trajectoires une fois que celles-ci ont été agglomérées :

W (C ∪ C ′, C ′′) = W (C, C ′′) + W (C ′, C ′′) (3.16)

et

d(C ∪ C ′, C ′′) =W (C, C ′′)d(C, C ′′) + W (C ′, C ′′)d(C ′, C ′′)

W (C, C ′′) + W (C ′, C ′′). (3.17)

Distances entre classes alternativesDeux autres distances entre classes peuvent être expri-mées de façon analogue à l’équation3.13, en remplaçant l’opérateur moyenne par un minimumou un maximum. Le minimum conduit à une classification de type «single link», pour lesquelsles deux classes ayant les éléments les plus proches sont fusionnés. On obtient ainsi un arbrerecouvrant minimal. Le maximum conduit à une classification de type «further link» : deuxclasses sont fusionnées si leurs deux éléments les plus éloignés sont proches relativement auxautres paires de classes.

En utilisant ces approches, une seule paire de trajectoires est prise en compte pour la fusionde deux classes. Le fait qu’aucune distance n’est définie pour certaines paires de trajectoires nepose pas de problème particulier, l’extremum est calculé en considérant seulement les couplesde trajectoires pour lesquel on peut estimer une distance :

d(C, C ′) = mini∈C,j∈C′|W (i,j)>0

(d(i, j)). (3.18)

oud(C, C ′) = max

i∈C,j∈C′|W (i,j)>0(d(i, j)). (3.19)

Dans le cas de la distance minimale, on rencontre le problème classique de cette méthode :deux classes bien distinctes et de faible variance peuvent être mal segmentées à cause d’unchemin qui les relie. Ce phénomène est aggravé par le type de distance que nous utilisons, quiest caractérisé par la possibilité d’avoir des éléments proches de plusieurs classes à la fois. Ceciarrive en particulier, comme illustré à la figure3.13, lorsque des trajectoires sont définies surun intervalle pour lequel leur mouvement est peu discriminant. Une telle trajectoire est alorssimilaire avec des trajectoires de plusieurs classes de mouvement, ce qui entraîne la fusionerronée de classes de trajectoires ayant des mouvements incompatibles.

Dans le cas de la distance maximale, le risque est inverse, à savoir de ne pas fusionnerdeux classes qui sont pourtant similaires. Ceci peut arriver lorsque l’une des classes a déjàincorporé unoutlier, qui a une faible distance avec cette classe, mais une forte distance avecl’autre. Au niveau des trajectoires, le cas concerne des longues trajectoires, qui sont prochesde mouvements existants sur un intervalle donné, mais sont très dissemblables ailleurs. Uneclasse qui incorpore une telle trajectoire sur la base de la similarité sur l’intervalle où il y acompatibilité est alors privée de toute fusion avec une classe contenant une trajectoire définieen dehors de cet intervalle. Ceci est illustré sur la figure3.14.

Contrairement au cas de la distance minimale, l’utilisation de la distance maximale em-pêche la fusion de classes possédant des trajectoires avec des mouvements différents. Ainsi,deux classes de mouvements distincts ne peuvent fusionner sur la seule donnée d’un intervalle

Page 76: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

76 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

temps

espa

ce

(a) (b)

12

34

56

A

BA+B

FIG. 3.13 – Fusion erronée de deux classes dans une classification hiérarchique par «singlelink ». (a) : A ce niveau, il y a 4 classes : les trajectoires 1 et 6 forment une classe chacun, laclasse A est formée de 2 et 3, et la classe B est formée de 4 et 5. (b) : La distance faible entre 3et 4 fait fusionner les deux classes A et B, alors que les trajectoires 2 et 5 sont très dissimilaires.

sur lequel leurs mouvements sont similaires, dès qu’il existe un intervalle sur lequel leurs mou-vements sont dissimilaires.

Ces deux cas extrêmes présentent des instabilités qui sont atténuées par l’utilisation d’unemoyenne. Ce lissage s’opère lorsque les classes deviennent plus grosses, les similarités entreclasses étant alors moyennées sur l’ensemble des trajectoires de chaque classe. Une trajectoirecourte et similaire à une trajectoire d’une autre classe, ou bien une trajectoire longue présentantdu bruit prennent alors une importance moindre dans la décision finale de fusionner ou non.D’un autre côté, cela revient à avoir les deux types de problèmes lorsque l’on ne dispose pasd’assez de trajectoires longues et correctes.

espa

ce

1 3

54

2A

B

temps

6

FIG. 3.14 – Fusion empêchée entre deux classes dans une classification hiérarchique par «fur-ther link». La trajectoire 3 empêche la fusion des classes A et B, malgré le fait que le reste destrajectoires est fortement similaire.

3.4.3 Résultats

Influence de la taille des intervalles

Les figures3.15et 3.16représentent des classifications de trajectoires obtenues pour deuxtailles d’intervalles différentes. L’ensemble des trajectoires de longueur supérieure à l’intervalled’analyse est considéré. La classification utilisée utilise la moyenne des distances. Les trajec-toires utilisées sont montrées à la figure3.6.

Page 77: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 77

Le chronogramme représente en abscisse le temps, et en ordonnée la partition des trajec-toires en classes. Pour chaque classe, la hauteur de la zone associée à un instant donné repré-sente le nombre de trajectoires de la classe présente à cet instant. On voit ainsi que ce nombrevarie au long de la séquence, ce qui témoigne du fait que les trajectoires ne sont pas toutesdéfinies sur l’ensemble de la séquence. De plus, le début de la séquence contient beaucoup plusde primitives que la fin. En effet, les images du début possèdent plus de structures spatialesdétectables, sur les gardes notamment, alors que le fond a un aspect uniforme à la fin de laséquence.

Au début de la séquence, le mouvement ne permet pas de discriminer le fond des person-nages. En effet, les personnages restent immobiles sur le perron. Ceci change lorsqu’ils des-cendent les marches, et que la caméra reste sur eux, alors que le fond se déplace en apparencevers la gauche. À partir de ce moment, le mouvement permet de bien les séparer. Ces diversmoments se retrouvent au niveau de la classification. À partir de la descente des marches, lespersonnages sont bien dissociés du fond, jusqu’à la fin de la séquence. Avant ce moment, onobserve plusieurs trajectoires associés aux personnages regroupés avec le fond (classe A). Cestrajectoires sont en fait présentes seulement au début, lorsque le mouvement est peu discrimi-nant. Les trajectoires associées aux personnages qui sont plus longues, et qui peuvent prendreen compte la descente des marches sont quant à elles mises dans la classe B.

La figure3.16illustre un problème supplémentaire, lié au manque de trajectoires. En plusdes classes A et B, apparaissent ainsi deux classes C1 et C2, qui correspondent au fond. Ons’attendrait donc à ce qu’elles soient fusionnées avec la classe A. Or la hiérarchie fusionned’abord A et B, puis le résultat avec C1 puis C2. La durée de coexistence temporelle entre A etC est insuffisante, car inférieure à 100 images, ce qui empêche leur fusion. Lorsque l’on classeles mêmes trajectoires (longueur > 100 images) en utilisant des intervalles d’analyse moinslongs (50 images), on retrouve un résultat analogue à la figure3.15.

Pour des intervalles faibles, la classification repose sur des vecteurs difficiles à séparer. Eneffet, pour les «blobs», le bruit sur la position de l’extremum atteint plusieurs pixels. Cecin’est pas gênant lorsque la différence de déplacement entre deux classes est importante, notam-ment lorsque les objets ont eu le temps de se déplacer pendant un nombre important d’images.Par contre, au niveau de quelques images seulement, le bruit l’emporte. La figure3.17montreplusieurs segmentations sur les mêmes trajectoires, avec des tailles d’intervalle croissantes, per-mettant de voir la difficulté de séparer les déplacements des taches lorsque des intervalles courtssont utilisés. Ceci s’améliore lorsque l’intervalle d’analyse est élargi.

3.4.4 Extensions

Nous avons présenté une méthode qui se base sur des dissimilarités entre trajectoires. Nousavons soulevé en particulier plusieurs points spécifiques à la segmentation de trajectoires delongueurs variées.

La présence d’intervalles où le mouvement n’est pas discriminant peut provoquer des am-biguïtés et des erreurs de classification. Les trajectoires longues sont aussi concernées, car ellespeuvent être comparées à des trajectoires avec lesquelles elles ont un faible recouvrement tem-porel. Il est donc important que la méthode de classification prenne en compte qu’une distancefaible entre deux trajectoires ne signifie pas forcément qu’elles doivent appartenir à la mêmeclasse. Ce problème est moins présent lors de l’utilisation d’une fenêtre d’analyse plus grande,au prix d’une diminution du nombre de mesures de dissimilarité disponibles.

Le regroupement de trajectoires n’ayant pas de coexistence temporelle utilise des trajec-toires intermédiaires. Dans une méthode utilisant l’hallucination, ces trajectoires intermédiaires

Page 78: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

78 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

B

AB

A

B

A

image 3300image 3000

100

blob

s

FIG. 3.15 – Regroupement des trajectoires avec des intervalles d’analyse de 50 images. Enhaut : deux images de la séquence, avec les ellipses des supports des taches détectées. Le ni-veau de gris de l’ellipse dépend de la classe de la trajectoire à laquelle la tache appartient. Enbas : chronogramme de la séquence, indiquant pour chaque classe et à chaque instant le nombrede taches détectées. La hiérarchie est coupée à 5 classes, dont 3 contiennent une seule trajec-toire. On observe que la classe B correspond aux deux personnes et à quelques taches dansleur voisinage, sauf au début de la séquence, où le mouvement est peu discriminant. Parmi lestrajectoires associées à des éléments des personnages présents au début de la séquence, seulescelles qui sont suffisamment longues font partie de la classe B.

fournissent l’information nécessaire à la prolongation des autres trajectoires. Dans notre cas,elles permettent le regroupement grâce aux similarités qu’elles possèdent entre elles.

Plusieurs extensions sont envisageables, utilisant le même cadre. Dans notre cas, la classi-fication est basée sur des similarités estimées directement entre les trajectoires. Ceci est un casparticulier d’une compatibilité asymétrique entre une trajectoire et un modèle, où un modèle estassocié à chaque trajectoire. On pourrait envisager d’effectuer la classification non plus seule-ment dans l’espace des trajectoires, mais aussi dans l’espace des modèles, en considérant unematrice de compatibilité entre les trajectoires et un ensemble de modèles de mouvement définis,par exemple, à l’aide d’une méthode de génération d’hypothèses.

La classification des trajectoires par fusions successives de classes a aussi été utilisée parKanatani [43]. Dans son approche, un modèle de mouvement est associé à chaque classe, etadapté au contenu de celle-ci, mais ne sont considérées que des trajectoires définies sur le mêmeintervalle. Les mécanismes proposés ici, tels la mesure de la confiance accordée à la similarité

Page 79: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 79

A

B

B

C2

C1

C2C1B

A

image 3100 image 3300

hiérarchie

3220

50 b

lobs

FIG. 3.16 – Regroupement des trajectoires avec des intervalles d’analyse de 100 images. Lahiérarchie est coupée à 6 classes, dont 2 contiennent une seule trajectoire. La hiérarchie est re-produite sur la droite du chronogramme. On observe que les classes C1 et C2, qui correspondentà des éléments du fond sont séparées de la classe A. La classe B fusionne avec la classe A surla base de leur mouvement proche au début de la séquence, quand les deux personnes restentimmobiles sur le perron. Elle empêche ainsi la fusion de A et des classes C.

entre deux classes, ainsi que l’analyse par fenêtres permettraient d’étendre son approche au casdes trajectoires de longueurs variées.

Ce chapitre a montré l’utilisation de primitives trajectoires pour la segmentation du mouve-ment. Leurs caractéristiques géométriques de position ont été utilisées, mais sans faire de lienavec l’image sous-jacente. En particulier, le support spatio-temporel n’a pas été pris en compte.Nous allons explorer cet aspect dans le chapitre suivant.

Page 80: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

80 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

3150-3151 3150-3152

3150-3155 3150-3160

FIG. 3.17 – Classifications obtenues avec un seul intervalle d’analyse, pour plusieurs taillesd’intervalle. La hiérarchie est coupée à 3 classes dans chaque cas. La prise en compte d’unelongueur plus longue rend la discrimination entre les personnages qui descendent l’escalier etle fond plus claire. Ainsi, pour les intervalles courts, le bruit sur le positionnement des taches seconfond avec le déplacement des objets qui leur sont associés.

Page 81: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

3.4. REGROUPEMENT DE TRAJECTOIRES DE LONGUEURS VARIÉES 81

1 60 70 80 120 260

image 1 image 60 image 70

image 260image 120image 80

50 b

lobs

FIG. 3.18 – Exemple de segmentation sur la séquence « coastguard ». La séquence comportel’apparition d’un des bateaux et la disparition de l’autre. Les taches utilisées sont des «blobs»laplacien, dont les moins marqués ne sont pas pris en compte, ce qui occasionne quelques zonesvides dans la partie homogène de l’eau. La segmentation, obtenue pour 3 classes, fait apparaîtreune classe pour chaque bateau et une pour le fond. La disparition du petit bateau, et l’apparitiondu grand bateau sont visibles sur le chronogramme en bas : le grand bateau apparaît dès le débutde la séquence, ce qui correspond à une augmentation progressive du nombre de trajectoiresassociées ; le petit bateau disparaît vers l’image 110, mais sa classe ne s’arrête que plus tard.Cela est dû aux trajectoires qui ont un moment eu le même mouvement que celui-ci et quicontinuent à exister pendant quelque temps avant de disparaître elles-mêmes.

Page 82: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

82 CHAPITRE 3. CRÉATION ET UTILISATION DE TRAJECTOIRES

Page 83: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 4

Segmentation du bloc spatio-temporel

Le bloc spatio-temporel qui regroupe l’ensemble des pixels d’une séquence est la base del’analyse de celle-ci, il est donc normal de chercher à lier toute connaissance que l’on extraità celui-ci. Les pixels sont la source à la fois de la position spatio-temporelle des structures etde leurs caractéristiques visuelles. Les méthodes par segmentation proposent l’analyse du blocspatio-temporel comme un étiquetage des pixels en plusieurs classes.

Les approches de segmentation du bloc se différencient par le traitement du temporel. Lesapproches à priorité spatiale effectuent la segmentation au sein des images, et gèrent la cohé-rence temporelle séparément, alors que les approches dans le domaine joint spatio-temporelprennent en compte les liens temporels pendant la segmentation.

4.1 Approches spatiales

La première catégorie de segmentation spatio-temporelle donne la priorité à la segmentationspatiale par image. Elles sont les plus courantes, car elles correspondent à l’extension de lasegmentation d’image à la vidéo par l’ajout du suivi temporel. Le principe général est quel’estimation des liens temporels entre images se base toujours sur au moins une segmentationspatiale existante.

Au niveau de la segmentation spatiale elle-même, deux grandes familles se distinguent,selon le critère utilisé pour la segmentation spatiale : les segmentations par le mouvement, etles segmentations par les caractéristiques statiques telles que la couleur ou la texture.

Les deux types de segmentation ont une granularité différente : en général, un objet cohérentau sens du mouvement est formé de plusieurs zones de couleurs différentes. Cette granularités’exprime aussi par le fait que des caractéristiques telles que la couleur peuvent être mesuréesur des zones de taille très réduite, alors que l’estimation de mouvement requiert la prise encompte d’un voisinage plus étendu pour être fiable. Dans le contexte de segmentation spatio-temporelle, le degré de détail sera limité par la stabilité attendue des régions dans le temps : lesrégions de très petite taille risquent en effet d’être peu stables, et plus difficiles à distinguer deleur voisinage spatial.

Nous étudierons successivement les différentes techniques de segmentation spatiale par lemouvement, puis comment la cohérence temporelle est traitée. Les techniques de segmentationpar la couleur et la texture seront abordées en même temps que la cohérence temporelle.

83

Page 84: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

84 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

4.1.1 Segmentation spatiale par le mouvement

Les techniques peuvent être divisées en deux grandes familles : celles basées sur la simila-rité de mouvement, et celles basées sur l’estimation de modèles. Notons que les deux approchesreposent explicitement ou implicitement sur un modèle de mouvement, que celui-ci soit pa-ramétrique (translation, mouvement affine ou modèle en projection perspective d’une surfaceplane), ou bien favorise des critères de régularité spatiale du mouvement. La distinction quenous proposons met en évidence comment ce modèle est appliqué aux données.

– Similarité de mouvement. Cette approche se base sur un mouvement estimé localement.Des caractéristiques de mouvement sont ainsi associées à chaque élément (pixel, région)indépendamment, ou à chaque paire d’éléments voisins. Les regroupements de ces élé-ments en segments1 font alors intervenir des comparaisons symétriques entre mouve-ments d’éléments de même nature.

– Estimation de modèle. L’estimation des paramètres du mouvement n’est pas effectuéeindépendamment sur chaque élément, mais sur des groupes d’éléments. L’évaluation dela qualité du modèle repose sur une mesure asymétrique, qui caractérise l’adéquation deséléments au modèle de mouvement.

Une des principales différences entre les deux approches tient à la façon dont est abordéel’estimation des paramètres du mouvement. Les approches par estimation de modèle ont besoind’une initialisation, soit du modèle de mouvement, soit du support sur lequel estimer ce modèle.Les paramètres de mouvement sont estimés sur une région supposée être cohérente au niveaudu mouvement, qui est plus grande qu’un simple voisinage local. Cela permet de capturer defaçon plus précise dans certains cas des mouvements tels que la rotation.

Les approches par similarité ont besoin d’une estimation locale directe. Celle-ci a plus dechance d’être bruitée et incertaine, mais n’est influencée par aucune initialisation. L’estimationde mouvement local fait intervenir un compromis sur la taille de la région utilisée pour estimerles paramètres locaux de mouvement. L’augmentation de la taille de la région donne accèsà plus d’informations et de contraintes qui aident à la précision du résultat. Cependant cecis’accompagne d’un plus grand risque que le modèle local ne soit plus adapté, soit parce qu’iln’est qu’une approximation locale du mouvement réel, soit parce que la région recouvre deuxmouvements bien distincts.

Ce compromis est appelé par Jepson et Black [41] problème de l’ouverture généralisée(« generalized aperture problem»). Pour ces raisons, certains auteurs qui utilisent des modèlesparamétriques locaux estiment ceux-ci sur une sur-segmentation couleur de l’image, espérantainsi augmenter les chances de considérer une zone de mouvement cohérent. Dans tous les cas,il est souhaitable que le résultat ne soit pas trop dépendant de telles hypothèse, qui peuvents’avérer imparfaitement vérifiées. L’estimation du mouvement devrait donc posséder une cer-taine robustesse vis à vis de la présence éventuelle de plusieurs mouvements [56].

Similarité de mouvement local. Dans le cas d’un modèle affine de mouvement, Wang etAdelson [75], ainsi que Ke et Kanade [45] effectuent une présegmentation de l’image, puis es-timent les paramètres de mouvement sur chacune des régions ainsi extraites. Dans leur phased’initialisation des segments, Wang et Adelson [75] associent à chaque région un point dansl’espace des paramètres affines. Ils segmentent ces points en se basant sur la distance eucli-dienne.

Les six paramètres de mouvement affine(a1 a2 a3 a4 a5 a6) associent à la position

(xy

)1Nous utilisons le termesegmentau sens d’élément de segmentation.

Page 85: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.1. APPROCHES SPATIALES 85

le vecteur de déplacement

(uv

):

{u = a1 + x a2 + y a3

v = a4 + x a5 + y a6(4.1)

Ces paramètres peuvent être séparés en deux groupes différents : les paramètres de degrézéro (a1 a4) représentent la translation modélisée à l’origine du repère et les paramètres dedegré un (a2 a3 a5 a6) représentent le changement d’échelle, la rotation et le cisaillement. Lasensibilité du vecteur de déplacement aux variations d’un paramètre de degré zéro est uniformesur l’image. Par contre la sensibilité aux variations d’un paramètre de degré un dépend de laposition spatiale, et est plus importante quand on s’éloigne de l’origine. Lorsque l’origine estpar exemple au centre de l’image, la sensibilité est ainsi plus grande sur les bords. Cet effetest pris en compte dans [75] par une normalisation, qui consiste à diviser les paramètres dedegré un par la taille de l’image. Même si ceci a pour effet de compenser les ordres de grandeurmaximum de ces sensibilités observées dans l’image, les différences restent. Le bruit présentlors de l’estimation des paramètres a donc une influence non uniforme selon les paramètres dumodèle de mouvement.

L’approche par classification est aussi utilisée par Ke et Kanade [45], où l’espace des pa-ramètres locaux de mouvement est projeté sur un sous-espace. Le problème de la disparité desunités de mesure des paramètres de mouvement est toujours présent, mais le bruit des para-mètres de mouvement est diminué. Les auteurs montrent qu’en présence d’une scène statique,les paramètres de mouvement induits par un plan 3D se trouvent dans un sous-espace indépen-dant du choix du plan considéré.

Lors de l’application de cette méthode à la segmentation par le mouvement, où la scèneest non statique, cette propriété n’est pas utilisable. Par exemple, les sous-espaces associés àdeux objets rigides se déplaçant indépendemment ne sont pas forcément en correspondance. Laréduction de dimension est alors applicable seulement si le rang de la matrice des paramètreseffectivement estimés est inférieur à la dimension totale de l’espace de paramètres. Ceci a peude chances d’arriver en présence de plusieurs objets non plans de mouvements indépendants.Par contre, en multipliant les nombre d’images sur lesquelles sont estimées les paramètres demouvement, la dimensionnalité de l’espace de paramètres augmente, alors que le nombre dedimensions maximales du sous-espaces associé à chaque objet rigide reste constant. Dans cesconditions, la projection sur un sous-espace permet de combiner des estimations de mouvementsur plusieurs images, en éliminant les redondances, ce qui aide à l’élimination du bruit.

Similarité de mouvement contextuelle. Afin d’éviter le problème de l’interprétation et de lanormalisation des métriques dans un espace de paramètres de mouvement, d’autres méthodesévitent une comparaison directe des paramètres. Elles reviennent dans le domaine spatial, où ladissimilarité de mouvement peut être exprimée dans des unités bien définies : différence entrevecteurs de déplacement [32], ou différence d’images déplacées [54] [74].

Gelgon et Bouthemy [32, 31] calculent les paramètres de mouvement sur chaque région in-dividuelle. Ils calculent ensuite, pour chaque paire de régions voisines, la différence moyenneentre les prédictions du champ de mouvement issues des paramètres de mouvement respectifs.Ces différences sont prises en compte dans un cadre de segmentation probabiliste par champ deMarkov : elles favorisent ou pénalisent l’étiquetage identique des régions voisines. Pour expri-mer les potentiels associés, il est nécessaire de fixera priori l’ordre de grandeur des différencesde mouvement entre des classes de mouvement distinctes.

Page 86: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

86 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

La validation croisée des paramètres de mouvement est aussi utilisée par Moscheni et al.[54], mais avec un critère différent. Ils basent la similarité sur la différence d’images déplacées.Le principe consiste à comparer les valeurs des pixels entre une image et l’image suivante,après compensation du mouvement. La différence est appelée image résiduelle. Cette différencedépend notamment des paramètres de mouvement utilisés : lorsque ceux-ci correspondent aumouvement d’une région, les différences d’images déplacées des pixels de cette région sontfaibles ; lorsque le mouvement n’est pas compatible, cette différence est plus importante. Lecritère de compatibilité du mouvement est combiné avec un critère de couleur, qui favorise lesregroupements de régions de même luminance.

Wang [74] utilise une telle méthode dans son étape de fusion. Pour chaque paire de régionsadjacentes, les paramètres de mouvement sont estimés sur leur union. Les régions sont fusion-nées si la différence d’images déplacées correspondant à ces paramètres est en dessous d’unseuil.

Comparaison à un modèle Les approches descendantes partent d’un modèle de déplacementde référence, et séparent les éléments selon qu’ils sont ou non en adéquation avec ce modèle.Dans un cadre de vision active [3], le choix du modèle de référence peut être guidé par desinformations complémentaires sur le mouvement de l’observateur. La scène est alors segmentéeen ce qui semble se mouvoir de façon cohérente avec l’observateur, et ce qui ne peut pas l’être.

En l’absence d’a priori sur le mouvement de l’observateur, les auteurs recourent à l’hypo-thèse de mouvement dominant, qui estime le mouvement ayant un support spatial plus étenduque chacun des autres mouvements [38]. Les éléments qui vérifient ce modèle sont générale-ment associés avec le fond, tandis que ceux qui le violent correspondent aux objets en mou-vement. Le mouvement de référence est préférablement estimé par des méthodes robustes, quisont moins sensibles à la présence de plusieurs mouvements distincts [56, 63]. Dans le cas où ilexiste un objet dominant dans le reste de l’image, la méthode peut être appliquée récursivementpour en extraire plusieurs objets [38], mais cette approche doit être considérée avec précautiondans les cas où l’hypothèse de mouvement dominant n’est pas vérifiée.

Smith et Brady [69] utilisent une approche ascendante par agglomération. Les éléments sontdes points d’intérêt dont on a estimé le mouvement instantané. Les points sont ajoutés un par unà une classe, après avoir testé si leur mouvement est suffisamment proche du mouvement préditpar le modèle de mouvement de la classe en question.

Compétition de modèles Contrairement aux approches précédentes, qui favorisent la divi-sion ou l’agglomération, les approches par compétition de modèles estiment les paramètres desdifférents mouvements présents de façon conjointe à la segmentation de leurs supports spatiaux.

Sawhney et Ayer proposent une description assez complète de l’approche par couches («laye-red representation») [63]. Une couche est caractérisée par des paramètres de mouvement et unmodèle d’apparence. La méthode cherche à étiqueter chaque pixel de façon à ce qu’il soit com-patible avec sa couche associée, c’est à dire que sa couleur soit proche du modèle d’apparence,déplacé conformément aux paramètres de mouvement. Le modèle d’apparence est souvent priségal à l’image précédente, bien que des extensions récentes [42] considèrent un modèle construità partir de plusieurs images. Dans un cadre probabiliste, on peut exprimer l’approche sous laforme de mélange de modèles («mixture model») : chaque élément doit être associé à unecouche, dont les paramètres sont inconnusa priori.

Les approches Markoviennes prennent en compte les même éléments, en rajoutant la notionde contexte local. Ainsi, Odobez et Bouthemy [57] formulent le problème comme l’étiquetagedes pixels de l’image, de façon à ce que les pixels ayant la même étiquette soient compatibles

Page 87: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.1. APPROCHES SPATIALES 87

avec un mouvement paramètrique. Ce traitement permet l’adaptation à un nombre de classesvariables, en rajoutant des nouvelles étiquettes, ou en fusionnant deux étiquettes.

L’estimation jointe des paramètres de mouvement et des étiquettes est complexe à causede la grande dimensionnalité de l’espace des inconnues. Elle est ainsi sujette à des problèmesd’optimisation tels que la convergence vers des minima locaux. Une solution courante consisteà utiliser l’algorithme «Expectation-Maximisation» (EM), qui estime un type d’inconnues (éti-quetage ou paramètres de mouvement) en gardant l’autre constant, et en itérant jusqu’à conver-gence. La plupart des travaux dans ce sens utilisent un modèle de mouvement paramétriqueaffine pour chaque couche [63] [75]. L’utilisation d’estimateurs robustes pour la phase d’estima-tion des paramètres du mouvement [56] permet d’obtenir en une seule passe les paramètres demouvement, notamment lorsque l’on dispose d’une initialisation des labels relativement prochede l’optimum.

Weiss [76] relâche la contrainte de mouvement paramétrique, en imposant à chaque coucheseulement la régularité du champ de mouvement. Le modèle de mouvement de la couche estainsi représenté sous la forme d’un champ de mouvement, dont la régularité intervient dans lecalcul de l’energie totale à minimiser.

Un modèle plus complet est proposé par Mémin et Pérez [55], qui prennent en compte larégularité du champ de mouvement mais aussi un modèle de mouvement paramétrique par mor-ceaux. Leur méthode intègre les deux points de vue, en couplant le champ local de mouvementavec une segmentation de l’image basée sur le mouvement. Ces deux entités sont optimiséesconjointement, ce qui donne la souplesse d’un champ local de mouvement, tout en permettantla prise en compte de la cohérence du mouvement sur de larges régions, et les discontinuitésdu mouvement. Les exemples d’estimation de mouvement fluide montrent l’intérêt d’une telleapproche à deux niveaux.

4.1.2 Cohérence temporelle

La segmentation d’une image, qu’elle soit par le mouvement instantané, par la couleur, oula texture ne construit qu’une structure spatiale. Pour obtenir une structure spatio-temporelle, ilest nécessaire d’insérer des liens temporels, qui assurent la cohérence temporelle des segmenta-tions successives. Nous introduirons les méthodes de segmentation utilisant les caractéristiquesvisuelles statiques en même temps que leur application pour la mise en relation temporelle.

Causalité de la cohérence

Castagno [10] propose de différencier la construction des liens temporels dans la segmen-tation d’une séquence en deux approches : le suivi avec initialisation, et le suivi par mise encorrespondance (l’auteur utilise le terme de reconnaissance).

Dans le suivi par initialisation, le procédé de segmentation de chaque image utilise les seg-mentations déjà disponibles, c’est à dire le plus souvent la segmentation de l’image précédente.La segmentation comporte alors deux phases. En premier lieu, la segmentation de l’image pré-cédente et les paramètres associés sont projetés temporellement sur l’image à segmenter. Dansun deuxième temps, cette projection sert d’initialisation à la segmentation, qui est ainsi dépen-dante du passé. Cette deuxième phase peut aussi être vue comme l’adaptation de la projectionaux données de l’image.

Dans le suivi par mise en correspondance, les segmentations dans les images sont extraitesindépendamment, puis mises en correspondance temporelle. Cette dernière phase implique laresynchronisation des régions (à travers une éventuelle compensation du mouvement), avantleur comparaison.

Page 88: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

88 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

L’approche par initialisation est justifiée par les relations causales entre les images. Elle estattractive dans des applications de traitement du flux vidéo où la séquence est analysée au furet à mesure de son décodage ou de son acquisition. D’un autre coté, cela porte une importanceaccrue sur l’initialisation de la segmentation, qui influence l’ensemble des segmentations.

Les segmentations obtenues dans les deux approches sont également justifiables, et té-moignent de deux points de vue différents sur la cohérence temporelle. La première imposela cohérence temporelle en supposant avoir une bonne approximation de la projection tempo-relle appropriée. La deuxième recherche les cohérences temporelles en supposant savoir évaluerce qui est cohérent de ce qui ne l’est pas.

Les techniques existantes résument généralement les informations disponibles à la seuleimage précédente, sans tenir compte de ce qu’il y a avant cette image, ni après l’image courante.

Projection temporelle

La cohérence temporelle dans le cas d’une approche avec initialisation dépend de la projec-tion des paramètres d’une image à la suivante. Cette projection peut concerner deux éléments :le support spatial et les paramètres de mouvement. On remarque que l’on retrouve les deuxtypes d’inconnues dans une segmentation du mouvement par mélange de modèles, à savoir lafonction d’appartenance aux modèles, et les paramètres de chacun des modèles.

Nous aborderons les méthodes utilisées dans le cas des approches par mise en correspon-dance à la suite des deux types de projection utilisée dans l’approche par initialisation.

Projection des paramètres de mouvement La technique la plus courante pour projeter lesparamètres de mouvement d’une image à la suivante consiste à initialiser une méthode de seg-mentation itérative à l’aide des paramètres de mouvement obtenus à l’image précédente [75][63] [58].

Pour ces méthodes, la segmentation finale est le résultat d’une optimisation itérative et al-ternative des paramètres de mouvement et de leurs supports spatiaux. La cohérence temporelleentre l’optimum trouvé et l’initialisation n’est pas exprimée explicitement, mais repose sur leprocessus itératif. Grâce à la grande dimensionnalité de l’espace des solutions, la solution esten effet un minimum local, qui se trouve dans une vallée fortement dépendante de l’initialisa-tion. Durant l’optimisation, le résultat final peut s’éloigner de l’initialisation, même fortement[10, p112]. Ce problème arrive surtout dans des situations où la segmentation est ambiguë, parexemple lorsque un objet a un mouvement très similaire de celui du fond.

Les méthodes qui n’utilisent que les paramètres de mouvement font l’hypothèse que le mou-vement est un critère discriminant dans chacune des images. Ainsi, un objet en déplacement quiviendrait à s’arrêter ne peut plus être différencié du fond après son arrêt. Dans ce cadre, l’initia-lisation sur la première image est critique, car elle conditionne la segmentation sur le reste de laséquence.

Projection des supports spatiaux D’autres méthodes se basent sur une la cohérence tempo-relle des étiquettes. Le principe le plus couramment utilisé est la projection temporelle de l’éti-quetage, par compensation des modèles de mouvement. Ce principe peut s’appliquer de deuxmanières : par projection avant, ou par vérification arrière. L’approche par projection avantcompense chaque région de l’image précédente par son mouvement. Par cette compensation,chaque pixel de l’image courante est associé à une, plusieurs, ou aucune étiquette de l’imageprécédente. Dans cette approche, les paramètres de mouvement utilisés sont généralement esti-més une fois pour toute. La vérification arrière se base sur une hypothèse de segmentation de

Page 89: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.1. APPROCHES SPATIALES 89

l’image courante. Chaque pixel de l’image courante possède une étiquette. La compensationdu mouvement associé à cette étiquette permet d’associer le pixel à une position dans l’imageprécédente. Il est donc associé à au plus une étiquette de la segmentation de l’image précé-dente. Les paramètres de mouvement utilisés peuvent être précalculés, ou bien faire partie duprocessus d’optimisation.

Brady et O’Connor [7], ainsi que Patras et al. [58], en plus de l’initialisation des paramètresde mouvement à partir de l’image précédente, imposent une pénalité lorsqu’un pixel est étiquetédifféremment de la prédiction issue de l’image précédente. En particulier, Patras et al. [58] uti-lisent un champ de Markov dans lequel le potentiel de Gibbs de chaque site (région) favoriseles étiquettes cohérentes avec celles de l’image précédente. Gelgon et Bouthemy [32] optentpour une segmentation qui comporte deux niveaux : une segmentation couleur, et un regrou-pement de ces régions en classes de mouvements similaires. Le mouvement de ces classes estutilisé pour estimer la prédiction, qui concerne les régions de couleur. Cette prédiction est aussiintégrée dans une segmentation par champs de Markov, cette fois en tant qu’initialisation.

Le cas des pixels auxquels sont associés deux labels est traité par Wang [74] en choisissantl’étiquette entraînant la plus faible différence d’images déplacées. À partir de cet étiquetage, unensemble de marqueurs sont extraits, qui sont utilisés dans une segmentation morphologiquecouleur de l’image courante. La segmentation par le mouvement est appliquée aux régionsde couleur, mais uniquement pour les régions nouvellement apparues, afin de les intégrer auxclasses de mouvement déjà existantes.

Castagno [10] propose une approche de segmentation combinant couleur, texture et mouve-ment, qui utilise une classification à base de méthode itérative de type K-moyennes. Ce choixpermet aux classes d’une nouvelle image d’être initialisées sous deux formes : le support spatialprojeté sous la forme d’un étiquetage de l’image, mais aussi à travers les paramètres de couleur,de texture et de mouvement des classes de l’image précédente. L’étiquetage est alors obtenu paritération de la classification initialisée avec ces paramètres.

Deng et Manjunath proposent dans le cadre du système NeTra-V [20] un mélange des deuxtypes de mise en relation temporelle. Au sein d’un bloc de 7 images, ils appliquent une méthodepar projection. L’image centrale du bloc est segmentée spatialement en se basant sur la couleuret la texture. Les étiquettes de cette segmentation sont ensuite projetées sur les autres images,grâce à l’estimation d’un champ affine de mouvement au sein de chaque région. Les régionssont ordonnées en profondeur afin de décider quelle étiquette attacher aux pixels associés àdeux régions à la fois. Cet ordre est déterminé en étudiant globalement pour deux régions cellequi prédit le mieux la valeur des pixels dans la zone de conflit.

Mise en correspondance

Deng et Manjunath complètent la segmentation à très court-terme précédente [20] par unemise en correspondance des régions issues des images centrales de blocs successifs. La corres-pondance est basée sur des caractéristiques globales de la région, mais donne la priorité à lacouleur. La position du centre de la région, la taille et la texture sont utilisées pour éliminer lesappariements temporels par seuillage sur les différences de ces descripteurs.

Les même auteurs utilisent une mise en correspondance différente dans [21]. La segmenta-tion sur la couleur et la texture est de type croissance de région à partir de marqueurs, appliquéesur chaque image. Lors de la mise en correspondance temporelle les marqueurs sont projetésd’une image sur l’image précédente, en supposant le mouvement faible par rapport à la taille desrégions. Cette projection reprend le principe énoncé au paragraphe précédent. Les marqueursont une taille approximative de 1/3 à 2/3 de la taille de la région correspondante. Lorsque le

Page 90: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

90 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

marqueur intersecte une région de l’image précédente, les deux régions sont fusionnées.Del Bimbo et al. [19] utilisent une approche semblable pour l’appariement de régions issues

d’une segmentation couleur. Chaque région est reliée à la région de l’image suivante qui possèdela meilleure similarité. Cette similarité prend en compte la couleur globale et le recouvrementspatial des régions, sans compensation du mouvement. Les régions sont donc supposées degrande taille avec un mouvement faible.

Hiérarchies de segmentation Dans le contexte de la mise en correspondance de régions déjàsegmentées se pose un problème spécifique de la correspondance des régions par des liens 1-1, c’est à dire impliquant l’association de chaque région à au plus une région correspondantetemporellement. Ceci n’est pas nécessairement critique dans le cadre de la segmentation par lemouvement, où un nombre relativement restreint de régions est considéré, et où l’hypothèsesque les objets d’intérêt sont segmentables par le mouvement conduit à peu de fusion ou dedivision de régions dans le temps.

Cependant, pour les segmentations de granularité plus fine, telle que la segmentation cou-leur, l’utilisation d’une partition unique limite les possibilités d’appariement. En effet, bienqu’une segmentation paraisse adaptée sur une image fixe, la stabilité temporelle n’est pas tou-jours assurée, de faibles changements dans l’image provoquant en effet la modification de lasegmentation finale. Ces modifications comprennent une grande part de fusions et divisions,lorsque le regroupement de deux régions en une seule est proche du seuil de décision.

Gomila [34] aborde ce problème par l’utilisation de hiérarchies de segmentation couleurobtenues par morphologie mathématique. Lors de la phase de mise en correspondance entredeux images successives, l’algorithme sélectionne dans chaque hiérarchie le niveau d’échellequi permet le meilleur appariement avec l’autre hiérarchie. Les régions de l’image précédentesont divisées conformément à la hiérarchie, jusqu’à ce qu’elles puissent être associées à desrégions de la hiérarchie de l’image courante.

Après la mise en correspondance, les régions de la nouvelle image associées à la mêmeétiquette sont refusionnées de façon à être cohérentes avec la partition initiale. À ce stade,la méthode inclut la possibilité de prendre en compte l’apparition de nouvelles régions. Lesrésultats montrent que l’utilisation d’une hiérarchie permet le suivi, dans des conditions où unesegmentation à échelle fixe n’aurait pas pu trouver des correspondances temporelles 1-1 entreles régions.

Extension de l’horizon temporel

Les approches que nous venons d’évoquer sont basées sur la projection d’informations éma-nant uniquement de l’image précédente. Afin de contraindre un peu plus la cohérence tempo-relle, on peut prendre en compte un horizon temporel plus large. Tao et al. [70] conservent unmodèle des objets suivis, qui prend en compte plusieurs images dans le passé. Ils imposent ainsides contraintes qui pénalisent les changements du mouvement et qui intègrent una priori sur lalocalisation spatiale de chaque objet. Le modèle d’apparence est explicitement mis à jour pourprendre en compte plusieurs images, contrairement aux approches vues précédemment, qui sup-posent simplement l’invariance d’une image à la suivante. Ces contraintes additionnelles, no-tamment l’a priori spatial, permettent une meilleure robustesse dans l’application visée (le suivide véhicules par imagerie aérienne), grâce à la forme ramassée et la taille relativement faibledes objets suivis par rapport à l’image.

Un modèle analogue est utilisé par Jojic et Frey [42], où la séquence est modélisée par uncertain nombre de couches. Ils utilisent un modèle de mélange avec plusieurs types de variables

Page 91: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.2. SEGMENTATION DANS LE DOMAINE JOINT SPATIO-TEMPOREL 91

cachées : l’apparence globale d’une couche (appelée «sprite») et sa variance, l’apparence réelledans chaque image de la séquence, ainsi que les transformations spatiales et les masques per-mettant de localiser le «sprite» dans chaque image. Aucune contrainte de cohérence temporelleautre que l’invariance de l’apparence n’est utilisée, ce qui augmente fortement la complexité duproblème. Pour garder un temps de calcul raisonnable, les auteurs ont choisi de ne considérerque des translations. Contrairement aux approches séquentielles, la séquence vidéo est considé-rée ici dans son ensemble, et l’optimisation est menée conjointement pour toutes les images.

4.2 Segmentation dans le domaine joint spatio-temporel

L’extraction de structures spatio-temporelles de la vidéo, dans son sens le plus large, a toutintérêt à utiliser toute l’information disponible, et donc à traiter conjointement les dimensionsd’espace et de temps. Les analyses d’images séquentielles ou les méthodes basées sur des tra-jectoires font le choix de donner la priorité à l’une ou l’autre des dimensions afin de simplifierle problème.

L’analyse dans un tel cadre trouve des résonances en sciences cognitives, par analogie aveccertains processus de la vision humaine. Gepshtein et Kubovy [33] étudient comment des sujetsperçoivent des regroupements de points dans un contexte dynamique. Il en ressort que les di-mensions spatiales et temporelles ne sont pas entièrement déconnectées, car les regroupementsspatiaux perçus entrent en compétition avec des regroupements temporels. Ceci suggère que lavision humaine trouve des structures saillantes de façon jointe en espace et en temps.

La représentation d’une portion de séquence vidéo sous la forme d’un bloc 3D de pixels metbien en évidence le lien fort entre les deux aspect spatial et temporel. La séquence est alors vuecomme un tout, et non plus comme l’empilement des images consécutives. Cette approche areçu peu d’attention jusqu’à récemment, étant donné la quantité importante de mémoire néces-saire pour stocker un tel bloc vidéo, et la complexité accrue des traitements prenant en compteces informations simultanément. L’analyse d’un bloc dans son ensemble autorise cependant desmodèles où structure spatiale et structure temporelle sont mises au même niveau.

D’un point de vue de l’analyse informatisée, nous distinguons les approches par similarité etles approches basées sur un modèle spatio-temporel. Les approches par similarité définissent dessimilarités entre les éléments du bloc spatio-temporel, et recherchent des classes cohérentes enleur sein. Celles basées sur un modèle spatio-temporel définissent un modèle global applicableau bloc vidéo.

4.2.1 Segmentation de graphes

Les méthodes basées sur les graphes définissent des similarités entre les pixels du bloc vidéo.Elles considèrent un graphe dont chaque noeud est associé à un pixel du bloc spatio-temporel,et dont chaque arête est pondérée en fonction de la similarité entre les noeuds (appelée affinitédans ce contexte). Les noeuds sont alors classés en utilisant des techniques de segmentation degraphes. Les arêtes connectent les pixels aussi bien spatialement que temporellement, ce quifait de cette approche une segmentation spatiale et temporelle jointe. Le nombre de noeuds dugraphe est ainsi très élevée, ce qui a empêché l’utilisation de telles approches jusqu’à récem-ment, où la puissance de calcul, couplé à des nouvelles méthodes de calcul ont permis leur miseen oeuvre.

Les techniques de regroupement spatio-temporel sur les graphes sont l’extension des mé-thodes de segmentation d’image par graphe [66, 59, 77] au volume spatio-temporel.

Page 92: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

92 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

Caractéristiques associées aux noeudsShi et Malik [65] utilisent une affinité basée sur lasimilarité entre profils de mouvement. Un profil de mouvement représente la probabilité dedistribution des vecteurs de mouvement en un point donné. Il permet de prendre en comptel’incertitude sur le déplacement de façon non paramétrique. Une zone non texturée a ainsi unprofil laissant tous les déplacements possibles, alors qu’une zone très texturée aura un profilayant plusieurs pics marqués s’il y a ambiguïté, ou un seul pic sinon.

Fowlkes et al. [28] utilisent une similarité basée sur un ensemble d’indices visuels. Ils at-tachent à chaque pixeli du bloc un vecteur de caractéristiquesxi qui contient sa position spatio-temporelle, sa couleur, et le flot optique estimé sur son voisinage.

Dans les deux cas, l’information de mouvement regroupe préférentiellement les noeudsayant des vecteurs de vitesse instantanée similaires. Il s’agit donc d’un modèle de translation.Les liens étant définis entre noeuds voisins, ce modèle est cependant local. Des noeuds ayantdes vecteurs de déplacement non similaires peuvent être groupés, à condition d’être reliés parune succession de noeuds similaires de proche en proche.

Topologie du graphe La topologie du graphe segmenté doit être fixée à l’avance. Les lienspurement spatiaux sont choisis pour chaque noeud dans un voisinage spatial, afin d’éviter leregroupement de noeuds similaires éloignés dans l’image. Les liens spatio-temporels sont demême pris dans un voisinage temporel.

Le choix des liens spatio-temporels, en l’absence d’a priori sur le mouvement est arbitraire.Pour les méthodes présentées [65, 28], les déplacements de faible amplitude sont ainsi dotés deplus de liens que ceux ayant une forte amplitude.

Dans le cas où le noeud possède des caractéristiques discriminantes et stables dans le temps,la topologie a une faible influence sur la segmentation finale. En effet, les liens correspondant audéplacement correct auront une bonne similarité, et les autres une similarité presque nulle. Dansle cas où la discriminance est moins bonne, ou si la stabilité temporelle est faible, la différenceentre les liens corrects et les autres diminue, ce qui donne une plus grande influence de latopologie du graphe dans le résultat final. Ainsi, dans le cas de régions peu contrastées, maisde couleurs stables dans le temps, il y a un risque que la segmentation reflète un déplacementnul plutôt que le déplacement réel. Ceci est lié à la définition de similarités de couleurs et/ou demouvement adaptées à la scène analysée.

Complexité La complexité des méthodes basées sur les graphes est assez élevée, car elles sontbasées sur la matrice de similarité entre noeuds, qui dans le cas des noeuds associés aux pixelsest de taille importante. De plus, étant donné le nombre important de liens et l’impossibilitéde différenciera priori les liens intra-classe des liens inter-classes, les méthodes présentées uti-lisent l’analyse spectrale du graphe, afin d’obtenir une classification optimale globalement. Ceciapporte une plus grande complexité, qu’il est nécessaire de limiter par quelques heuristiques.

En premier lieu, les noeuds peuvent être associés à un sous-échantillonnage du bloc spatio-temporel, afin d’en diminuer le nombre. La précision de la segmentation finale dépend alors dutaux de sous-échantillonnage.

D’autre part, la matrice de similarité peut être rendue creuse en échantillonnant aussi lesarêtes. Shi et Malik [65] ne considèrent pas de manière exhaustive les liens entre un noeud etles noeuds de son voisinage, mais procèdent à un échantillonnage. Le nombre de voisins pris encompte est encore important, mais fortement réduit par rapport à un échantillonnage exhaustif.Les liens manquants sont en quelque sorte remplacés par le chaînage de plusieurs liens. Ladiminution de la densité des arêtes est ainsi limitée par la forte densité des noeuds. En pratiquecette heuristique semble ne pas avoir d’effets négatifs sur le résultat final.

Page 93: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.2. SEGMENTATION DANS LE DOMAINE JOINT SPATIO-TEMPOREL 93

Enfin, l’approximation de Nyström [28] permet d’améliorer encore les temps de calcul del’analyse spectrale. Cette méthode approche la matrice de similarité en exprimant les similaritéspar rapport à un échantillonnage des noeuds de référence. L’avantage est de diminuer le nombrede noeuds lors de l’analyse spectrale, tout en produisant une segmentation sur l’ensemble desnoeuds de départ. Le choix des noeuds de référence doit refléter l’ensemble des caractéristiquesprésentes au sein de chaque classe, afin que les similarités estimées soient proches des similari-tés réelles.

Nous venons de voir que les méthodes par graphe adoptent une optimisation globale baséesur les critères locaux que sont les relations binaires entre noeuds. La méthode suivante abordedirectement le problème de façon globale.

4.2.2 Modélisation paramétrique du bloc vidéo

Greenspan et al. [35] décrivent le bloc vidéo sous la forme d’un modèle à base de mélange degaussiennes multivariées. Ils ajoutent aux trois dimensions spatio-temporelles, trois dimensionssupplémentaires de couleur : chaque pixel de la séquence est associé à un point de cet espacede caractéristiques à 6 dimensions. Ils procèdent alors à la classification des pixels en estimantles paramètres des gaussiennes du modèle.

D’un point de vue de la modélisation de la scène, il s’agit de l’extension au bloc vidéo dela représentation d’une image par un mélange de gaussiennes. L’image est représentée sous laforme d’une distribution de points dans un espace à 5 dimensions (2 d’espace et 3 de couleur),qui est approchée par une somme de noyaux gaussiens. Ces noyaux peuvent prendre des cova-riances quelconques. En particulier, au niveau spatial, elles permettent de modéliser des formesrondes ou allongées, de taille variée. Au niveau des couleurs, la variance traduit l’inhomogé-néité des couleurs dans le support spatial de la gaussienne. Pour simplifier, la gaussienne peutse visualiser sous la forme d’une ellipse de couleur homogène.

Lorsque le temps est pris en compte, les ellipses sont remplacées par des ellipsoïdes dans lebloc spatio-temporel. De façon intuitive, cette modélisation associe donc une classe à une régionde couleur homogène qui se déplace dans le temps avec une vitesse constante. Les covariancesspatio-temporelles renseignent sur le mouvement d’une telle primitive visuelle ; en effet lestermesCxt/Ctt et Cyt/Ctt correspondent au mouvement moyen de tranches temporelles de lagaussienne. Le modèle prend ainsi explicitement en compte un déplacement, éventuellementimportant, des primitives visuelles.

Les cas se démarquant de ce modèle intuitif sont pris en compte de la façon suivante. Sila région vient à disparaître ou à changer de façon trop importante de couleur, la gaussienneassociée sera limitée dans le temps, pour ne plus recouvrir l’intervalle temporel de la séquenceen entier. De même, si le mouvement n’est pas à vitesse constante mais est accéléré, la régionsera mieux représentée par plusieurs gaussiennes se succédant temporellement.

La classification est mise en oeuvre par un algorithme d’«Estimation-Maximisation» (EM),pour lequel le nombre de classes doit être fixé à l’avance. La formulation probabiliste par modèlede mélange permet la définition de critères de description de longueur minimale («MinimumDescription Length», MDL), qui associent à une classification donnée une longueur de codage.Le nombre optimal de classes peut ainsi être déterminé automatiquement, en comparant leslongueurs de codages issues de différentes classification. Ceci nécessite cependant de calculerplusieurs classifications avec des nombres de classes différents.

Page 94: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

94 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

4.3 Tubes de couleur spatio-temporels

4.3.1 Modèle de tube

Nous avons vu une approche de la segmentation spatio-temporelle utilisant un modèle àbase de gaussiennes. Si l’on considère l’apparence d’une tâche de couleur se déplaçant devantla caméra, on obtient plutôt un cylindre généralisé : une forme (la génératrice) balayant letemps en suivant un axe spatio-temporel (la directrice). La forme peut être définie dans un planuniquement spatial, mais la directrice ne peut être définie qu’en considérant conjointement letemps et l’espace.

Nous définissons un tube de couleur spatio-temporel comme un ensemble de pixels de cou-leur voisine, et situés au sein du bloc vidéo autour d’une directrice droite. Cette définition serapproche de la définition d’une tache de couleur, qui est un ensemble de pixels de couleurvoisine dans un voisinage spatial d’un point central. Elle y rajoute une translation à vitesseconstante, qui fait se déplacer cette tache dans le temps. La figure4.1 illustre cette définition.On notera en particulier qu’une tranche spatiale n’est pas forcément connexe. Nous verrons quemoyennant une information locale sur le mouvement, l’extraction des tubes peut s’apparenteraux méthodes d’extraction des taches que nous avons vues précédemment.

(a) (b)

FIG. 4.1 – Exemple de tube détecté dans un bloc vidéo. (a) : bloc vidéo vu sous la forme d’unempilement d’images. (b) : Mise en évidence d’un tube particulier dans ce bloc.

4.3.2 Extraction des tubes

Afin de nous affranchir de la nécessité de préciser un nombre de classes à l’avance, nousavons choisi de détecter les tubes par une méthode non-paramétrique. Ainsi, les paramètres destubes ne font pas partie de l’analyse, mais sont obtenus en fin de traitement.

La méthode consiste à plonger les pixels du bloc vidéo dans un espace de caractéristiques,dans lequel des pixels associés à une même tache de couleur se déplaçant dans le temps ont descaractéristiques proches, même en présence de déplacement.

À un pixel est associé sa couleur et l’axe spatio-temporel sur lequel celui-ci se déplace. Lafigure4.2 illustre cette association. Dans le cas où le déplacement d’une tache est parfaitementconstant, les pixels correspondants ont alors des axes parallèles et la même couleur. Pour déter-miner l’axe, nous recourons à de l’information sur le mouvement obtenue par le calcul du flotoptique.

Page 95: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.3. TUBES DE COULEUR SPATIO-TEMPORELS 95

O

PHM

d

y

xt

FIG. 4.2 – Association d’un axe spatio-temporel à un point muni d’un vecteur de déplacementau sein du bloc vidéo.

Caractérisation géométrique

Considérons un pixel situé sur le pointP de coordonnées(x, y, t) dans le bloc vidéo :il s’agit du pixel de position(x, y) dans l’imaget. Notons(u, v) son mouvement instantané.Le vecteur(u, v, 1) indique alors la direction 3D de l’axe qui lui est associé. L’axe est ainsicaractérisé par un point lui appartenant et par sa directiond = (u, v, 1).

Caractérisation de l’axe Afin de pouvoir juger de la similarité des axes, il est nécessairede définir une caractérisation unique, à l’instar de la transformée de Hough, qui associe àdes droites du plan une paramétrisation unique dans l’espace de Hough [40]. Étant donnée laconstruction des axes, la direction est fixée, il reste le choix du point représentatif. La figure4.3illustre deux choix possibles dans notre cas.

Lors de l’utilisation de la transformée de Hough pour rechercher des segments alignés dansun plan, le piedH de la perpendiculaire à l’axe issu d’un point arbitraire fixé présente desavantages. En effet, il ne fait aucune hypothèse sur une direction privilégiée, et détermine defaçon unique l’axe associé à chaque segment.

Dans le cas 3D la donnée deH, qui comporte trois paramètres, ne suffit plus à caractériserseule l’axe et doit être couplée à la direction. En fait la directiond contraint la position deH àêtre dans le plan orthogonal àd passant parO. H peut donc être déterminé complètement parla donnée de deux paramètres indiquant sa position dans ce plan.

Un problème plus important est que la notion d’orthogonalité dans le bloc vidéo supposeune normalisation des échelles spatiales et temporelles : le pointH est donc dépendant ducoefficient de normalisation utilisé entre ces deux types de dimensions.

L’intersectionM de l’axe avec le plan d’une image est quand à lui indépendant de la nor-malisation des échelles spatiales et temporelles. Son utilisation dans un cadre de recherche desalignements de segments purement spatiaux est limitée par la contrainte que l’axe comporte unecomposante temporelle non nulle. Cependant cette hypothèse est vérifiée dans notre cas, l’axecomportant en effet obligatoirement une composante temporelle. Ceci nous permet d’utiliser lepointM comme point de référence et ainsi éviter les problèmes de normalisation à ce stade del’analyse.

Influence de la direction sur le point de référence Lorsque l’axe est déterminé par un pointP et une direction, le point de référence permet d’en rendre compte de façon unique. Dans notrecas, la position deP est fixée, par contre la direction résulte d’une estimation de mouvement,

Page 96: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

96 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

image de référence

(a) (b)M1

M2H1

H2

Opoint origine

FIG. 4.3 – Paramétrisation unique d’un axe par un point de référence et un vecteur de direction.La figure est en 2D afin de simplifier la représentation, mais s’applique aux axes 3D dans lebloc vidéo. (a) : Le point de référence est l’intersection de l’axe avec le plan d’une image deréférence. (b) : Le point de référence est le pied de la perpendiculaire à l’axe issue d’un pointde référenceO.

et comporte donc du bruit. Le point de référence de l’axe est dépendant de ce bruit, et ce defaçon non uniforme sur le bloc vidéo. Ainsi, pour un pointP situé sur l’image de référence, lepoint de référenceM ne dépend pas de la direction de l’axe. Au contraire, lorsqueP est loinde l’image de référence, une variation faible de la direction entraîne une variation forte deM .Ce phénomène existe aussi lorsqu’on considère le point de référenceH : la variation deH enfonction de la direction est alors d’autant plus importante que le pointP est éloigné du centreO.

Il n’est pas possible d’éviter cette non-uniformité. Le choix du plan de référence a donc uneinfluence sur l’estimation de la proximité spatiale des axes. En effet, les directions des axes nesont jamais parfaitement parallèles au sein d’un même tube, à cause d’erreurs d’estimation, outout simplement parce que le mouvement apparent des objets n’est pas une translation constante.Ainsi, dans l’exemple (a) de la figure4.3, les deux groupes de trajectoires sont mieux séparésspatialement en prenant un plan de référence sur la droite plutôt que sur la gauche. Un tel choixest arbitraire, choisir le plan de l’image située au milieu de la séquence semble cependant un boncompromis. Les pixels les plus sensibles sont alors ceux situés dans la première et la dernièreimage du bloc vidéo traité. Choisir une autre image de référence augmente la sensibilité despixels de l’une ou l’autre de ces images.

Espace des caractéristiques

Vecteur de caractéristiques Nous avons discuté des caractéristiques géométriques. Pour lacouleur, nous considérons l’espace de couleur CIE L*u*v*, qui tend à être perceptuellementuniforme. Dans un tel espace, la distance entre couleurs est localement conforme à la façondont le système visuel humain perçoit des couleurs similaires. Il permet donc de manipuler lescouleurs dans un espace euclidien, en étant compatible avec la vision humaine.

Pour résumer, un pixel est associé à un vecteur de 7 caractéristiques :– 3 caractéristiques de couleur dans l’espace L*u*v* :(c1, c2, c3),– 2 caractéristiques de direction :(u, v),– 2 caractéristiques de position spatio-temporelle :(Mx, My).Lorsque l’estimation de mouvement est correcte, une tache de couleur ayant un mouvement

de translation constante dans le temps est constitué de pixels pour lesquels les vecteur de ca-ractéristiques associés sont similaires. Des pixels ayant des couleurs dissemblables ou des axes

Page 97: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.3. TUBES DE COULEUR SPATIO-TEMPORELS 97

distincts seront plus distants. La classification de ces vecteurs met ainsi en évidence les tubesprésents dans le bloc vidéo.

Normalisation L’espace des caractéristiques est formé de 3 types de dimensions : la couleur,la vitesse, et la position spatiale. Chaque type de dimension possède sa propre unité. La priseen compte simultanée de ces dimensions nécessite donc la définition d’équivalences entres lesdifférentes unités. Il est important de noter que chaque sous-espace associé à un type de di-mension possède déjà une structure euclidienne, que la normalisation ne doit pas détruire. Lanormalisation est donc identique pour les dimensions d’un même type. Les vecteurs réellementconsidérés comportent donc un étape de mise à l’échelle de chaque dimension de la forme :

x = (αcc1, αcc2, αcc3, αmu, αmv, αsMx, αsMy), (4.2)

où αc, αm et αs sont des coefficients de normalisation associés respectivement à la couleur, aumouvement, et à la position spatiale.

Ces coefficients font apparaître un compromis : la pondération entre le spatial, le mouve-ment, et la couleur. Deux pixels peuvent ainsi être jugés dissimilaires parce que leurs axes sonttrop éloignés, ou bien parce que leurs axes ont des directions différentes, ou bien parce que leurscouleurs sont dissemblables.

Il nous apparaît important de distinguer deux facteurs dans le choix de ces coefficients :l’importance que l’on accorde à un type de caractéristiques par rapport à un autre et l’échelleà partir de laquelle on considère que deux caractéristiques deviennent dissemblables. En notantwi l’importance que l’on accorde à la dimensioni, etσi la distance maximale entre deux pointsjugés similaires dans la dimensioni, les coefficients peuvent s’écrire :

αc =wc

σc

, αm =wm

σm

et αs =ws

σs

. (4.3)

Bien qu’augmentant le nombre de paramètres libres, cette formulation présente l’avantagede présenter la normalisation avec des paramètres facilement interprétables. Il faut noter queces paramètres sont définis de façon relative entre les dimensions c’est à dire à une constantemultiplicative près. Ainsi, des pixels dont les vecteurs de mouvement ont une distance égaleà σm ne sont pas jugés dissimilaires dans l’absolu, mais sont jugés aussi similaires que despixels dont les couleurs ont une distance égale àσc, par exemple. En pratique, nous prendronsles coefficientsw égaux à1, pour signifier que chaque dimension a la même importance. Lanormalisation repose alors uniquement sur les paramètresσ.

Classification

La classification dans l’espace des caractéristiques utilise la méthode de classification non-paramétrique que nous avons introduite à la section2.3.1et que nous avons utilisée pour l’ex-traction de taches de couleur hiérarchiques. Le vecteur de caractéristiques utilisé, au lieu d’êtreformé de la position et de la couleur, est ici formé de la position, la direction et la couleur, maisl’application de la méthode est analogue.

Chaque pixel du bloc vidéo est représenté par un vecteurx, conformément à l’équation4.2.Chaque pixel est donc associé à un point dans l’espace de position, couleur et direction, qui setrouve parmi le nuage de tous les points associés à l’ensemble des pixels. La classification nonparamétrique hiérarchique est effectuée en suivant les étapes suivantes :

– 1. Les centres sont initialisés aux points d’origine.

Page 98: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

98 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

– 2. Pour chaque valeur du rayonh situé sur une échelle fixée à l’avance, effectuer l’étapesuivante : (typiquementh varie de0.05 à plus de2, en étant multiplié par un facteurproche de1, typiquement1.1)

– 3. Pour chaque centre faire converger celui-ci vers le mode correspondant à l’échelleh, en utilisant la technique de remontée de gradient par «mean-shift». Lorsque deuxcentres sont très proches (à une distance inférieure à un seuil fixé à l’avance), les regrouperhiérarchiquement : un nouveau noeud est créé, dont les fils sont les noeuds associés auxcentres proches.

Cette méthode produit un arbre de classification des points originaux, qui s’applique à l’en-semble des pixels du bloc vidéo. Chaque noeud de l’arbre est associé à un ensemble de pixels.Il possède un rayon d’apparition, qui correspond au rayonh pour lequel le noeud a été créé, etun rayon de disparition, qui correspond auh pour lequel le centre correspondant a fusionné aveun autre centre. Les regroupements hiérarchiques sont spatio-temporels, sans distinction entreregroupements spatiaux et regroupements temporels.

D’un point de vue des objets physiques mis en évidence, nous supposons l’invariance de lacouleur. Cependant, la mesure de variation de la couleur est combinée avec d’autres facteurs telsque la différence dans la position et la direction de l’axe. La méthode tolère donc une variationde la couleur, de la même façon qu’elle accepte des variations de l’axe géométrique : ce quicompte est que la classification puisse extraire un mode associé au tube. La couleur peut doncvarier, notamment de luminosité, dans une certaine mesure. Les limites de cette variation sontdonnées par la possibilité de discriminer le tube de ses voisins. Ainsi, l’invariance de la couleurest importante lorsque le tube est proche d’autres structures de couleur voisine. Dans ce cas,toute variation de couleur plus importante que la différence de couleur entre tubes peut conduireà la fusion de ceux-ci. Lorsque le tube a une couleur suffisamment discriminante, l’invarianceest moins critique.

4.3.3 Comparaison avec les autres méthodes

Segmentation de graphes

Par rapport à la segmentation de graphes, notre méthode part d’un modèle explicite ducontenu du bloc vidéo, sous la forme d’un ensemble de tubes. Les pixels ne sont pas regrou-pés par la similarité de caractéristiques de couleur ou de mouvement, mais sont projetés dansun espace qui met en évidence la présence d’alignements autour d’un axe spatio-temporel depixels ayant des caractéristiques compatibles. La proximité temporelle n’est donc pas prise encompte. Il est possible de regrouper des pixels éloignés temporellement, mais faisant partie dumême tube, tout en évitant de les regrouper avec un tube voisin. La granularité de la segmenta-tion

Dans la segmentation de graphes, des pixels éloignés spatio-temporellement ont des liensmoins forts, afin de préserver la localité des regroupements. Les méthodes d’analyse spectraledes matrices d’affinité que nous avons évoquées dans l’état de l’art possèdent la bonne pro-priété de rechercher un optimum global, permettant de regrouper des points éloignés, à partirdu moment où ils sont reliés par des zones suffisamment denses. Cependant, afin de permettreles liens entre pixels présents à des instants différents malgré les déplacements, le rayon spatialdes liens issus d’un pixel doit être assez important. Ainsi, un pixelP possède des liens avec letube de couleur auquel il appartient, mais aussi avec des tubes proches, bien que distincts (voirla figure4.4). La segmentation finale peut ainsi fusionner des tubes proches, bien que ceux-cisoient distincts.

La connaissance du mouvement local permet de privilégier les regroupements temporels par

Page 99: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.3. TUBES DE COULEUR SPATIO-TEMPORELS 99

rapport aux regroupements spatiaux, ce qui diminue l’importance des liens spatiaux entre deuxtaches de couleur distinctes. Une telle adaptation des méthodes de segmentation de graphespourrait ainsi éviter la fusion de tubes de couleurs parallèles. Un avantage par rapport à l’ap-proche par classification dans un espace vectoriel serait une plus grande souplesse, notammentdans l’extraction de mouvements à vitesse non constante.

espa

ce

temps

P

liens spatio−temporels

FIG. 4.4 – Compromis entre proximité temporelle et spatiale dans une segmentation par lesgraphes. Le bloc vidéo comporte deux tubes de couleurs similaires parallèles. Le pixelP est liéà des pixels de son tube, mais aussi à de nombreux pixels du tube voisin.

Mélange de gaussiennes

Notre méthode est plus proche de la méthode par mélange de gaussiennes [35], car toutes lesdeux se basent initialement sur un modèle associant la position spatio-temporelle et la couleur.

Notre modèle de tube considère que la tache de couleur associée est présente sur une grandepartie de la séquence, alors que le modèle de mélange de gaussienne permet de donner une idéedes instants d’apparition et de disparition des taches qu’elles modélisent. En pratique, notremodèle n’est cependant pas utilisé de façon rigide, car la classification est non-paramétrique, ets’accomode donc de tubes qui apparaissent ou s’interromprent à un instant dans la séquence.Les instants d’apparition et de disparition peuvent ainsi être estimésa posteriorisur l’ensembledes pixels de chaque classe, indépendamment du modèle de cylindre spatio-temporel.

Les modèles ne manipulent pas de la même façon la notion de mouvement. Le nôtre prendainsi en compte explicitement le mouvement dès le départ. Le modèle de gaussiennes travailleau contraire dans un espace de couleur position de spatio-temporelle. Le mouvement est présentà travers les covariances des gaussiennes. L’estimation du mouvement vient donca posteriori,comme une conséquence de l’adaptation des gaussiennes au bloc de pixels.

Pour atteindre cette richesse d’expression, le modèle par mélange de gaussiennes est pa-ramétré : le nombre de gaussiennes doit être fixé au départ ; les paramètres de celles-ci sontestimés itérativement à partir d’une initialisation. Afin de rendre compte des vidéos de façondétaillée il est nécessaire de gérer un grand nombre de paramètres, ce qui provoque la présencede nombreux optima locaux. La solution est donc dépendante de l’initialisation. Dans [35] lemodèle est initialisé par K-moyennes. Une telle initialisation prend peu en compte la possibilitéde taches de petite taille comparée à leur déplacement dans la séquence.

Inversement, notre approche est non-paramétrique car elle prend la forme d’une classifica-tion dans un espace de caractéristiques. Bien que nécessitant l’estimation du flot optique [51],elle offre l’avantage de ne pas nécessiter d’initialisation et d’optimisation itérative. Le nombrede classes n’est pas fixé à l’avance, il est donc aisé d’obtenir plusieurs classifications de niveauxde détails différents.

Page 100: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

100 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

4.4 Analyse expérimentale

4.4.1 Illustration des résultats

La figure 4.5 illustre les résultats obtenus avec cette méthode. Concernant la normalisa-tion, les facteurs d’importancewi sont pris identiques. La couleur est représentée dans l’espaceL*u*v*, avec αc = 100. Pour le mouvement,αm est égal à 5 pixels/image, et pour la positionspatiale,αs est pris égal à la hauteur de l’image. Le bloc original est de 20 images. Ce bloc esttronqué de 4 pixels selon chaque dimension, afin de ne pas prendre en compte le flot optiquetrop près des bords. La segmentation ne concerne donc que les pixels des 12 images centrales.

La résolution spatiale est assez faible, afin de limiter les temps de calculs et la place mémoirenécessaire pour la classification des points dans l’espace des caractéristiques. Étant une méthodetravaillant dans l’espace et dans le temps de façon jointe, le nombre de pixels à considérersimultanément est en effet très important. Une image de taille 352 x 288, comme celles que noustraitons, contient 101376 pixels. Ce nombre multiplié par le nombre d’images du bloc atteintplus d’un million de pixels. Pour limiter ce nombre, nous avons travaillé avec des séquencesd’images de taille réduites entre un quart et un cinquième de la taille originale. On perd ainsiune grande quantité d’information liée aux hautes fréquences de l’image.

4.4.2 Analyse qualitative de la qualité des tubes

Validité des tubes détectés sur un bloc

Une tube extrait du bloc ST est censé regrouper tous les pixels appartenant à une mêmeentité qui se déplace dans le temps. Ainsi, à moins que cette entité ne soit pas visible à certainsmoments, le tube traverse le bloc temporellement, de part en part. La technique d’extraction destubes exprime cette notion d’entité en terme de couleur et d’axe de mouvement.

Comme toute classification automatique, les regroupements peuvent ne pas correspondreà l’idée qu’un humain s’en ferait. La figure4.6 représente plusieurs regroupements possibles,étant donné un bloc ST. En (a), on observe deux zones plus sombres, qui se déplacent avecle temps vers le haut. Intuitivement, on désirerait obtenir un tube pour chaque zone, commeillustré en (b). Selon l’échelle considérée, deux problèmes principaux peuvent se poser.

Morcellement temporel : Pour une échelle suffisamment faible, les regroupements font ap-paraître une sur-segmentation de chaque zone, comme illustré en (c).

Cela peut se traduire par une sur-segmentation spatiale : on ne détecte pas un tube, mais unensemble de sous-tubes, qui sont définis sur le même intervalle temporel. Une telle segmentationest cohérente avec la segmentation attendue, et apporte même plus de précision d’un point devue des correspondances temporelles.

La sur-segmentation peut aussi être temporelle. Si les propriétés d’invariance temporellesont peu respectées (variation temporelle de la couleur, ou mauvaise estimation du mouve-ment), les regroupements temporels sont mis en compétition avec les regroupements spatiaux.On assiste à un morcellement temporel des tubes, qui ne contient pas d’information sur lescorrespondances temporelles.

Notons qu’un tel morcellement peut prendre plusieurs formes. En (1), le morcellement estpurement temporel : le tube est coupé à une image donnée. La cause en est vraisemblablementun changement rapide des caractéristiques couleur ou mouvement dans le temps. En (2), lemorcellement a une composante spatiale. Lorsque les extrémités temporelles d’un tube souhaitéont des caractéristiques éloignées, il n’est pas possible d’obtenir un seul tube, et une frontière

Page 101: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 101

image originale

1e im

age

du b

loc

coup

e X

T à

y=

22de

rniè

re im

age

du b

loc

labels pour r=0.1 labels pour r=0.15 labels pour r=0.2

C

CA

B

B

D

x x x

x

x

x

xxxx

x x

x

C

D

A

C’A

A A C’

C’

A

x

x

FIG. 4.5 – Tubes extraits sur le bloc 3150-3170 de la séquence Mandela. La ligne du milieu re-présente une coupe YT dans le bloc spatio-temporel, qui est matérialisée par une ligne blanchesur les deux images du début et de la fin de la séquence. Les segmentations sont celles obtenuespar la classification, aucun post-traitement n’a été mis en oeuvre visant à éliminer les petitesrégions. (A) : Le personnage en noir est segmenté en deux au rayon0.1, et forme un seul tube àpartir du rayon0.15. En coupe YT, on peut observer son déplacement vers la droite, comme lereste du fond. (B) : Les bottes du garde sont segmentées en deux tubes voisins, l’un correspon-dant au blanc, l’autre au noir. (C) : Les deux personnages au centre de l’image sont segmentéspour un rayon inférieur à0.15. Malgré l’aspect morcelé, certains d’entre eux traversent le bloc,comme on peut le voir en (C’). Ils forment une seule classe à l’échelle0.2. (D) : La tête deMandela donne lieu à un tube de quelques pixels de large qui traverse le bloc. Sans le sous-échantillonage, il correspondrait à une région de diamètre compris entre 10 et 20 pixels. (x) :Les marques x repèrent des tubes plus gros, correspondant à des régions relativement homo-gènes, qui sont segmentées et suivies sans problème.

Page 102: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

102 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

spatio-temporelle entre les morceaux apparaît. Ainsi dans une tranche à un instant fixé contenantla frontière, une partie des pixels est associée au sous-tube d’une extrémité, et l’autre partie ausous-tube de l’autre extrémité. Ce morcellement spatial témoigne d’un changement progressifdes caractéristiques qui n’est pas forcément uniforme spatialement au sein du tube.

La figure4.7 représente un exemple de tube présentant un morcellement temporel, qui estcausé par la variation du flot optique au cours du temps.

Fusion spatiale abusive : Lorsque l’on monte dans la hiérarchie de segmentation, les groupesfusionnent. Si les fluctuations temporelles sont moins importantes que les différences spatiales,on a toute chance de retomber sur (b). Mais si ce n’est pas le cas, on observe alors la fusion desous-parties issues de zones différentes (d).

X,Y

T

X,Y

T

(a) (b)

X,Y

T

morcellement temporel

sur−segmentationspatiale

X,Y

T

fusion spatiale abusive

(c) (d)

FIG. 4.6 – Problèmes de validité des tubes. (a) : Coupe du bloc ST selon un plan contenant unedimension spatiale et une dimension temporelle. (b) : Tubes souhaités. (c) : Sur-segmentationdes tubes. Le morcellement peut être purement temporel (1) ou présenter une composante spa-tiale (2). (d) : Tubes morcelés temporellement et présentant une fusion spatiale abusive.

Page 103: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 103

image originale

1e im

age

du b

loc

10 20 30 40 50

10

20

30

40

coup

e X

T à

y=

22

10 20 30 40 50

2

4

6

8

10

dern

ière

imag

e du

blo

c

10 20 30 40 50

10

20

30

40

flot optique X

10 20 30 40 50

10

20

30

40

10 20 30 40 50

2

4

6

8

10

10 20 30 40 50

10

20

30

40

labels pour r=0.25

10 20 30 40 50

10

20

30

40

10 20 30 40 50

2

4

6

8

10

10 20 30 40 50

10

20

30

40

labels pour r=0.35

10 20 30 40 50

10

20

30

40

10 20 30 40 50

2

4

6

8

10

10 20 30 40 50

10

20

30

40

B

B

A

B

B

A

A

C

C

A

FIG. 4.7 – Morcellement temporel des tubes dû à la variation de flot optique. L’image origi-nale (colonne de gauche) montre que la variation temporelle de couleur est faible, mais quele contraste de couleur entre la veste de Chirac et le fond à sa gauche est aussi faible, ce quirend difficile leur séparation. Par contre, le flot optique (colonne du milieu) est important dansla zone marquée A, et faible dans la zone B. Cette distinction s’évanouissant dans le temps, lazone A disparaît, laissant la place à B et à C.

Page 104: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

104 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

4.4.3 Liens temporels entre primitives

Les primitives spatio-temporelles telles que les tubes sont extraites de la vidéo sur des blocsde plusieurs images. Ils forment donc déjà un groupe de points définissant des correspondancestemporelles. Si l’on considère deux primitives extraites de deux blocs ayant une intersectiontemporelle, on peut déterminer un lien entre elles en étudiant leur superposition dans le volumecommun aux deux blocs (voir figure4.8).

Les paragraphes suivants précisent la façon de calculer ces liens temporels. Nous nous enservirons en particulier afin d’estimer quantitativement la stabilité des tubes détectés.

� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � � �

� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �� � � � � � � � � � � � � � � � �

� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �� � � � � � � � � �

� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �� � � � � � � � �

Tube 2Tube 1

TBloc 2

SuperpositionX,Y Bloc 1

FIG. 4.8 – Principe de la mise en correspondance temporelle par superposition.

Taux d’inclusion et d’égalité

On se donne un bloc de pixels et deux ensembles de pixelsA etB définis sur ce bloc.Le volume d’intersection deA et B est égal au nombre de pixels de l’intersection deA et

B :volumeIntersection(A, B) = |A ∩B| (4.4)

Le taux d’inclusiondeA par rapport àB est égal au volume d’intersection ramené au volumede A. Il indique dans quelle proportionA est inclus dansB.

tauxInclusion(A, B) =|A ∩B||A|

(4.5)

Ce taux d’inclusion vaut0 lorsqueA ne rencontre pasB, et il vaut1 lorsqueA est entièrementinclus dansB. Par convention, il vaut aussi0 lorsqueA est vide, afin d’éviter de créer un lienquand il n’y a pas d’information disponible.

On définit en outre letaux d’égalitéentreA et B, qui est le minimum des taux d’inclusionrespectifs :

tauxEgalite(A, B) = min(tauxInclusion(A, B), tauxInclusion(B, A)). (4.6)

La figure4.9 illustre ces mesures sur quelques exemples.

Calcul pour deux partitions du même support

Le calcul initial des liens sur deux partitions du même ensemble de pixels tire profit de lapropriété d’exclusion mutuelle. Ainsi, un même pixel ne peut appartenir qu’à un seul segmentde chaque partition. Chaque partition recouvrant de plus l’ensemble des pixels du bloc spatio-temporel, un même pixel appartient exactement à un segment de chaque partition.

Page 105: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 105

(d)(c)(b)(a)

������������������������������������

������������������������������������

���������������������������������������������

���������������������������������������������

���������������������������������������������������������������

���������������������������������������������������������������

������������������������������������������������������������������������

������������������������������������������������������������������������

AB

AAB

A BB

intervalle d’analyseintervalle d’analyse intervalle d’analyse intervalle d’analyse

(a) (b) (c) (d)tauxInclusion(B, A) 1 1 1 0.5tauxInclusion(A, B) 1 0.5 0.5 0.5tauxEgalite(A, B) 1 0.5 0.5 0.5

FIG. 4.9 – Exemples de taux d’inclusion et d’égalité. Les ensemblesA etB sont définis sur unintervalle temporel plus grand que l’intervalle d’analyse, mais les taux d’inclusion et d’égaliténe prennent en compte que leur restriction sur cet intervalle.

Le calcul des liens d’inclusion se passe donc ainsi : pour chaque pixel, ajouter 1 au volumede l’intersection entre les deux segments auquel il appartient. Ceci demande un seul parcoursde tous les pixels lorsque l’on dispose d’une partition sous la forme d’un étiquetage des pixels.

En pratique, pour une partition d’un bloc spatio-temporel en de nombreux segments, lamatrice obtenue est creuse, car le support spatio-temporel de chaque segment est réduit. Unsegment s’intersecte donc avec un nombre limité de segments de l’autre partition. Pour despartitions de taille similaire, ce nombre sera en moyenne inférieur au nombre de voisins qu’unsegment possède dans sa propre partition.

Calcul pour deux hiérarchies d’ensembles

À présent, considérons une hiérarchie d’ensembles, telle que celle obtenue par l’extractiondes tubes spatio-temporels. À son niveau le plus bas, celle-ci partitionne l’ensemble des pixelsdu bloc spatio-temporel. Nous appellerons ce niveau l’ensemble des feuilles de la hiérarchie.Une feuille est donc un noeud de la hiérarchie, qui est aussi un ensemble de pixels. L’ensembledes feuilles d’une hiérarchie partitionne le bloc spatio-temporel, et il est possible d’obtenir unecarte donnant pour chaque pixel l’étiquette de la feuille associée. Les noeuds de la hiérarchiequi ne sont pas des feuilles sont appelés noeuds internes, et sont obtenus par l’union d’autresnoeuds.

Lorsqu’on manipule deux hiérarchies d’ensembles, les liens d’inclusion peuvent être entiè-rement déterminés à partir des liens d’inclusion entre les feuilles des hiérarchies. En effet, cesliens peuvent être propagés aux parents en utilisant les relations suivantes.

Considérons un ensembleA, partitionné en plusieurs sous ensemblesAi, et un autre en-sembleB. On peut relier les volumes d’intersection par l’équation suivante :

|A ∩B| =∑

i

|Ai ∩B|. (4.7)

Cette relation est aussi applicable en intervertissantA etB.Si l’on dispose des volumes d’intersection entre les feuilles de deux hiérarchiesA etB, on

peut donc calculer les volumes d’intersection entre toute paire de noeuds(A, B) pris dans cesdeux ensembles. Grâce à l’équation4.7, un parcours de la hiérarchieA partant des feuilles per-met de calculer le volume d’intersection de tout noeud deA avec toute feuille deB. Un parcoursde la hiérarchieB partant des feuilles permet ensuite de calculer le volume d’intersection de toutnoeud deA avec tout noeud deB. Ce processus est illustré graphiquement à la figure4.10.

Page 106: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

106 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

matrice de volume d’intersection

feui

lles

feuillesno

euds

inte

rnes

internesnoeuds

sur Aextension extension

sur B

valeurs connuesnoeuds de la hiérarchie Bno

euds

de

la h

iéra

rchi

e A

+

+

FIG. 4.10 – Illustration du calcul du volume d’intersection de tout noeud deA avec tout noeuddeB, à partir des feuilles de chaque hiérarchie.

Les liens d’inclusion et d’égalité s’obtiennent en utilisant les relations4.5 et 4.6, qui nenécessitent des informations que sur les noeuds eux-mêmes, et plus sur les liens entre les deuxhiérarchies d’ensemble.

Les lignes et colonnes de la matrice correspondant à des noeuds internes dans la hiérarchiene sont plus creuses, car ils recouvrent un nombre plus important de feuilles. Ceci est lié àleur place dans la hiérarchie : plus un noeud est haut dans la hiérarchie, plus il recouvrirade feuilles. Le nombre de noeuds diminue cependant quand on monte dans la hiérarchie. Lesnoeuds qui possèdent des lignes ou des colonnes presque pleines sont ainsi très peu nombreux,car correspondent aux quelques noeuds proches de la racine.

4.4.4 Analyse quantitative de la stabilité temporelle

On dispose de deux hiérarchies de tubes dans deux blocs ayant une intersection temporelle.Ces deux blocs peuvent avoir le même nombre d’images mais ils sont décalés temporellement.NotonsA l’ensemble des tubes extraits du bloc 1, etB ceux extraits du bloc 2. Étant donnéque seul l’intervalle temporel de coexistence est d’intérêt pour l’analyse de la stabilité, noussupposerons dans la suite que ces deux ensembles de tubes sont tronqués pour correspondre àcet intervalle.

Taux d’appariement On désire quantifier la stabilité temporelle des tubes entre les deuxensembles de tubesA etB. Nous dirons qu’un tubeA deA est stable s’il est possible de trouverun tubeB duB tel qu’ils soient quasiment confondus sur l’intervalle temporel de coexistencedes blocs.

De façon quantitative, on définit le taux d’appariement deA, qui est le meilleur taux d’éga-lité entreA et chaque tube deB :

tauxAppariement(A) = maxB∈B

(tauxEgalite(A, B)) (4.8)

Page 107: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 107

Évaluation de la stabilité globale

La figure4.11représente la distribution de ce taux d’appariement pour un décalage allantde 1 à 8 images. Ces distributions ont été calculées sur la séquence Mandela, avec des blocs de19 images, et moyennées en déplaçant l’image initiale du bloc 1 de l’image 3200 à 3210.

Nous définisson deux classes extrêmes : les tubes très bien appariés (tauxAppariement >90%), et les tubes très mal, ou pas appariés (tauxAppariement < 10%). Entre les deux setrouvent les tubes moyennement bien appariés.

On constate que pour un décalage de 1 image, le nombre de tubes très bien appariés n’estque de 27%. Il tombe à 17% lorsque le décalage est de 8 images. En parallèle, le nombre detubes très mal ou pas appariés (taux d’appariement inférieur à 10%) croît de 10% à 24%. Lereste des tubes, entre 59% et 63% du total, garde une distribution assez stable.

Ces résultats qualitatifs sont assez décevants d’un point de vue de l’utilisation des tubes poursuivre des objets arbitraires. En effet, pour un décalage de 8 images, 4 tubes sur 5 ne trouventpas de tube auquel s’apparier en autorisant une erreur de 10% des pixels qui le composent. Cechiffre est cependant à considérer avec précaution, car il prend en compte l’ensemble des tubes.

taux d’appariement

déca

lage

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1

2

3

4

5

6

7

8

9 décalage de 9 images

décalage de 1 image

0 0.1 0.2 0.3 0.40

0.5

0.05

0.6

0.1

0.7

0.15

0.8

0.2

0.9

0.25

1taux d’appariement pour un décalage de 9 images

0

0.25

0.2

0.15

0.1

0.05

0 0.20.1 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1taux d’appariement pour un décalage de 1 image

FIG. 4.11 – Distribution du taux d’appariement en fonction du décalage entre les blocs. Dans lamatrice, le blanc correspond à zéro, et le noir au maximum de la distribution. Les histogrammesoffrent une représentation alternative pour la première et la dernière ligne de la matrice.

Page 108: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

108 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

Cohérence de la stabilité selon le décalage

L’analyse précédente dégage une évaluation quantitative globale de la distribution de qualitédes appariements. Afin de détailler les propriétés de stabilité des tubes, nous allons analyser lavariation du taux d’appariement en fonction du décalage entre les blocs, de façon spécifique àchaque tube.

Principe de l’évaluation Dans les analyses qui suivent, les tubes du bloc 1 sont distribuésdans 10 classes en fonction de leur taux d’appariement pour un décalage donné. Ces classespartagent l’intervalle[0, 1]. On s’attachera à déterminer dans quelle mesure les classes ainsidéterminées sont stables lorsque le décalage varie, en comparant les classifications obtenuespour deux décalages différents.

Dans la suite, les classes de référence sont calculées pour un décalage de 1 image entre lesdeux blocs. Les classes évaluées ont un décalage que l’on fera varier de 2 à 9 images.

La figure4.12représente la distribution croisée entre le taux d’appariement de référence etle taux d’appariement évalué. Un tube donné est compté dans la case dont la ligne correspondà sa classe de référence, et dont la colonne correspond à la classe pour un décalage dei. Lalecture peut se passer ainsi : « Pour un taux d’appariement de référence donné, quelle est ladistribution du taux d’appariement des tubes correspondant pour un décalage différent ? ». Cesreprésentations sont complétées par la figure4.13, qui montre la distribution du taux d’apparie-ment pour trois classes de référence, ce qui correspond à des coupes horizontales des matricesde la figure4.12.

Variations faibles des tubes moyennement appariésDans l’idéal, une stabilité parfaite dutaux d’appariement par rapport au décalage devrait donner des matrices diagonales. Tout écartpar rapport à une matrice diagonale témoigne d’une variation du taux d’appariement. Les casessituées à gauche de la diagonale représentent les tubes qui sont moins bien appariés pour undécalage dei que pour un décalage de 1. A l’inverse, les cases à droite correspondent aux tubesqui sont mieux appariées que pour la référence.

Les matrices de la figure4.12montrent des écarts que l’on peut séparer en deux catégories.En premier lieu, on observe une instabilité naturelle du taux d’appariement qui se traduit par unflou autour de la diagonale, notamment pour tous les tubes moyennement bien appariés (10% <tauxAppariement < 90%). Il y a donc une certaine corrélation des taux d’appariement selonles décalages, mais avec une grande variabilité. Cette variabilité n’a pas de direction privilégiée,pouvant être tant une amélioration qu’une diminution du taux d’appariement. La rangée dumilieu de la figure4.13représente cette variation de distribution, associée aux tubes appartenantà une classe de référence d’appariement moyen. On y retrouve une distribution aplatie, autour dela classe de référence. Ces observations témoignent que, pour les tubes moyennement appariés,le décalage de une image n’offre pas une meilleure qualité d’appariement que des décalagesplus importants.

Cas des tubes mal appariés Deuxièmement, la colonne des tubes très mal appariés est for-tement peuplée, et ce de façon indépendante du flou observé précédemment. Ceci correspond àdes tubes bien ou moyennement bien appariés dans la référence, mais qui ne sont plus du toutappariés pour un décalage plus important. En particulier, une proportion importante (20%) destubes très bien appariés dans la référence ne sont plus appariés pour un décalage important de 9images. Ce phénomène est rendu plus visible dans la dernière rangée de la figure4.13: en plus

Page 109: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 109

de l’étalement de la distribution vers un moins bon appariement, on constate une montée nettedes tubes non appariés.

Ces deux phénomènes touchent les classes d’appariement « très bon » et « moyen », maisconcernent peu les tubes qui sont déjà très mal appariés avec un décalage de une image. Eneffet, la première rangée de la figure4.13montre que quel que soit le décalage, plus de80% detels tubes restent très mal appariés pour un décalage plus important.

Discussion Les résultats précédents, malgré le nombre important de tubes mal appariés, montrentune corrélation entre la qualité des appariements pour différents décalages. En particulier, lestubes bien appariés pour un décalage le sont généralement aussi pour un décalage différent,bien que cela ne soit pas une règle stricte. Une règle simple pour détecter les tubes stables, quidécoule de cette étude, est de mesurer cette stabilité pour un décalage arbitraire.

Cette possibilité de mesurer la stabilité d’une primitive est propre aux structures possédantune dimension temporelle. Elle offre des potentialités en terme de sélection des primitives.Ainsi, lors de l’utilisation de primitives spatiales, l’évaluation de la qualité des liens temporelsdoit se baser sur des estimations, basées elles-mêmes sur des hypothèses d’invariance. Ceshypothèses ont été dans notre approche intégrée à la formation de la primitive : nous avons eneffet supposé le mouvement approximativement linéaire, hypothèse classiquement utilisée, dansle filtrage de Kalman en particulier. Ce renversement présente les primitives extraites commedes hypothèses de regroupement pouvant être passée à une étape de validation.

Ce qui rend une telle validation possible est la possibilité d’estimer la cohérence entre plu-sieurs représentations. Dans notre cas, la cohérence est mesurée par la recherche d’une redon-dance : un tube est validé si l’on peut trouver un seul tube qui coïncide avec lui à une toléranceprès sur un intervalle donné. Dans le cas où un nombre plus important de représentations re-dondantes est disponible, le seuil d’exigence peut être remonté, en ne validant un tube que s’ilcoïncide avec un nombre plus important de tubes.

4.4.5 Commentaires

Les tubes que nous avons définis dans ce chapitre segmentent le bloc spatio-temporel defaçon jointe en espace et en temps. La segmentation a une granularité assez fine, par la priseen compte de la couleur. Une limitation importante est liée à l’utilisation du flot optique afin decompenser le déplacement des pixels dans le tube. Les erreurs sont dans une certaine mesurelissées par l’utilisation couplée de la couleur et par l’accumulation de plusieurs images, mais encas de changement de mouvement, les tubes peuvent se segmenter temporellement, empêchantainsi la continuité temporelle de la première image à la dernière.

Dans le cadre de l’appariement des tubes issus de deux blocs décalés, la faible proportiondes tubes bien appariés s’accompagne cependant d’une relative stabilité du taux d’appariementpour plusieurs décalages. Ces constatations rejoignent l’observation que les tubes capturent biencertaines parties de la scène, mais sont peu adaptés pour d’autres parties. La méthode, fondéesur la similarité des couleurs et des positions, privilégie en effet les régions de forme compactede couleur cohérente.

La production par une méthode de primitives instables n’est pas très grave, à partir du mo-ment où l’on peut évaluer cette instabilité. La méthode d’évaluation que nous avons abordéerepose sur la redondance, grâce à l’extraction de tubes à partir de blocs décalés temporellement.Les tubes ne trouvant pas d’appariement sont jugés instables, les autres sont confirmés par laprésence de tubes compatibles.

Page 110: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

110 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

décalage 1 vs 2

dist

ribut

ion

brut

e

0 0.5 1

0

0.5

1

décalage 1 vs 5

0 0.5 1

0

0.5

1

décalage 1 vs 9

0 0.5 1

0

0.5

1

norm

alis

atio

n pa

r lig

ne

0 0.5 1

0

0.5

10 0.5 1

0

0.5

10 0.5 1

0

0.5

1

FIG. 4.12 – Distribution croisée des taux d’appariements avec décalage de 1 et avec décalagedei (i = 1, 5 ou 9). La première rangée de matrices représente la distribution bidimensionnellebrute, alors que la deuxième rangée représente la distribution normalisée par rapport au maxi-mum de chaque colonne. Dans tous les cas, le noir correspond à zéro, et le blanc à la valeurmaximum de la distribution. Les lignes correspondent aux classes de référence. Les colonnescorrespondent aux classes avec décalage dei.

Page 111: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

4.4. ANALYSE EXPÉRIMENTALE 111

référence

clas

se [0

,0.1

]

décalage 2 décalage 5 décalage 9

clas

se [0

.5,0

.6]

clas

se [0

.9,1

]

FIG. 4.13 – Distribution des taux d’appariements, pour les tubes de trois classes de référence.Ces classes de référence correspondent de haut en bas à « tubes pas appariés », « tubes moyen-nement appariés », « tubes bien appariés ».

Une telle approche requiert un cadre dans lequel la cohérence entre les primitives n’estpas imposée immédiatement, afin de pouvoir rendre compte de la complémentarité apportéepar différentes primitives. Une approche multi-échelle joue sur une telle complémentarité, enpermettant à un pixel de faire partie de plusieurs regroupements à des échelles différentes. Ellen’est pas la seule possibilité, comme nous allons voir au chapitre suivant.

Page 112: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

112 CHAPITRE 4. SEGMENTATION DU BLOC SPATIO-TEMPOREL

Page 113: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 5

Réseau spatio-temporel de primitives

Une primitive spatio-temporelle seule ne donne pas une représentation complète d’une sé-quence. Dans le cas des primitives tubes, chaque tranche spatiale rend compte d’une partieseulement de l’ensemble de l’image, et son évolution temporelle n’est pas forcément définie surla totalité de la séquence.

Afin d’acquérir une représentation plus complète du bloc vidéo, il est donc important deconsidérer, outre l’extraction de la primitive elle-même, les relations que celle-ci possède avecles autres, ce qui amène à un autre niveau de structuration.

Ceci nous amène à élargir la réflexion à la notion même de structuration spatio-temporelle,que nous avons abordée sous plusieurs angles au fil des chapitres. Ce dernier chapitre seraainsi consacré à la recherche d’une formalisation de la représentation spatio-temporelle d’uneséquence.

5.1 Cadre à la structuration spatio-temporelle

5.1.1 Lien vers l’organisation perceptuelle

Sarkar et Boyer [61] définissent l’organisation perceptuelle comme la possibilité d’imposerune organisation structurelle à des données sensorielles, afin de regrouper les primitives senso-rielles qui proviennent d’une même cause sous-jacente.

Ils proposent une classification des types d’organisation en quatre niveaux : le niveau signal,le niveau primitive, le niveau structure, et le niveau assemblage. Le niveau signal concerne laproduction de caractéristiques proches du signal à partir du signal brut. Les niveaux primitiveet structure consistent en l’organisation des données à partir du signal. La différence entre lesdeux tient à la dimensionnalité de la représentation. Dans notre cadre 2D+t, les primitives sontdes lignes ou des surfaces spatio-temporelles, alors que les structures ont un aspect volumique.Enfin, le niveau assemblage consiste en l’organisation plus avancée des primitives et des struc-tures.

Cette classification reprend la définition d’un gestalt comme regroupement récursif de pointsprésentant des caractéristiques communes [23], en lui ajoutant un niveau, correspondant à ladimensionnalité du regroupement ainsi produit. La théorie du Gestalt propose de nombreusescritères sur lesquels peuvent se baser les regroupements : proximité, similarité, fermeture, bonnecontinuation, connexité, symétrie...

Les travaux de la communauté de l’organisation perceptuelle dans le domaine de l’ana-lyse d’image et de vidéo ont été menés dans le sens de l’application de ces critères sous uneforme computationnelle. Ainsi, dans le cadre de la structuration spatio-temporelle, Sarkar et al.

113

Page 114: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

114 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

[62] basent leur analyse sur l’extraction de surfaces 3D dans le volume spatio-temporel, quireprésentent des contours évoluant dans le temps. Ils regroupent ensuite ces surfaces selon descritères de continuité de mouvement, afin de segmenter par le mouvement des personnes sedéplaçant dans une scène fixe.

Ainsi, bien que l’analyse du volume 2D+t ait reçu une attention récente, la plupart destravaux continuent de privilégier des regroupements de faible dimensionnalité correspondantà des discontinuités, tels que les contours ou les surfaces spatio-temporelles, qui présententl’avantage de se prêter à de nombreux critères différents de regroupement (symétrie, continuité,parallélisme, orthogonalité...).

Notre étude a au contraire porté sur une analyse basée sur des regroupements de plus grandedimensionnalité correspondant à des zones cohérentes ou homogènes, tels que les taches decouleur et les régions dans les images, et les volumes spatio-temporels dans le bloc vidéo.

De plus, la dimension temporelle a été peu abordée dans cette approche perceptuelle, lesprincipes d’organisation spatiale étant extrapolés au volume 2D+t, en l’assimilant à un volumeà trois dimensions spatiales. Pourtant, la dimension temporelle possède des caractéristiquespropres, qui ne sont pas celles de la dimension spatiale. En effet, une vidéo n’est pas perçue defaçon synchrone, car nous n’avons pas accès simultanément à l’ensemble de la vidéo lorsquenous la regardons. La définition d’une structure dans la vidéo doit donc prendre en compte cepoint.

5.1.2 Structures spatio-temporelles par regroupement

Définition

Nous proposons dans le reste de ce chapitre une formalisation de la notion de structure,organisée autour de deux axes : une définition de la structure spatio-temporelle basée sur leregroupement, et la prise en compte de la spécificité de la dimension temporelle à travers lanotion de synchronisme.

Nous parlerons à partir de maintenant d’une structure comme d’un regroupement récursifdes pixels, de façon indépendante du niveau de complexité de celle-ci.

Trois types de regroupement permettent d’expliquer les approches que nous avons abordéesdans le cadre de notre travail :

– le regroupement spatial par similarité des caractéristiques visuelles statiques (couleur,texture),

– le regroupement spatial par cohérence du mouvement,– le regroupement par continuité temporelle.

Ces descriptions sont volontairement génériques, leur application dans les méthodes spécifiquesprennent des formes différentes, en incluant notamment des contraintes supplémentaires per-mettant d’en contrôler la mise en oeuvre. Par exemple, le critère de couleur est courammentassocié à une contrainte de proximité ou de connexité, imposant une certaine localité dans leregroupement.

Caractérisation d’une méthode

Nous modélisons chaque méthode d’analyse spatio-temporelle sous la forme de la com-position récursive de structures utilisant ces trois types de regroupement. Nous pouvons ainsicaractériser chaque méthode par le type des regroupements qu’elle utilise, et par l’ordre danslequel ceux-ci sont effectués.

Page 115: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.2. RELATIONS SPATIO-TEMPORELLES ENTRE STRUCTURES 115

Afin de mieux appréhender ces caractérisations, nous proposons une visualisation synop-tique par une courbe polygonale dans un espace à trois dimensions. À chaque dimension estassocié un type de regroupement (par la couleur ou la texture, par le mouvement, par la conti-nuité temporelle). La courbe part des structures atomiques que sont les pixels. Un regroupementcorrespond à un déplacement dans cet espace dans le sens croissant de la dimension associée.Les sommets de cette courbe correspondent à des types de structures. Les figures5.1 et 5.2montrent cette visualisation, appliquée à un ensemble représentatif des méthodes que nousavons évoquées au cours des chapitres précédents. Une hiérarchie est caractérisée par l’utili-sation récursive du même type d’opération. Le cas (c) représente donc une hiérarchie couleurcomme un regroupement couleur de régions couleurs.

Lorsqu’une structure est utilisée pour deux regroupements de type différent, il se produit unembranchement. Ainsi, dans le cas (c), les trajectoires sont obtenues en regroupant des régions,mais la hiérarchie elle-même n’est pas mise en correspondance. Dans le cas (e), la hiérarchien’est pas non plus mise en correspondance, mais elle guide le choix des régions à considérerpour que le suivi se passe bien.

Les types de regroupement ne sont pas incompatibles entre eux. Ainsi, la méthode d’ex-traction de tubes présentée à la section4.3 effectue un regroupement des pixels qui se basesimultanément sur la similarité de couleur, la similarité de mouvement, et la continuité tempo-relle. Les autres méthodes optent généralement pour des regroupements où les différents critèressont utilisés séquentiellement.

Mise en oeuvre

La modélisation par regroupements récursifs met l’accent sur des types de regroupementet les types de structures associées. Cette simplification donne une idée abstraite globale per-mettant de comparer des méthodes au niveau de la nature des structures qu’elles cherchent àobtenir, en négligeant les détails de mise en oeuvre.

En particulier, les structures sont supposées connues au moment de leur regroupement. Lorsde l’état de l’art sur les approches spatiales, nous avons vu deux approches pour la mise encohérence temporelle d’une segmentation spatiale : l’approche par initialisation, et l’approchepar mise en correspondance. La mise en correspondance rentre naturellement dans le cadrede regroupements de structures : deux structures de même nature et ayant des caractéristiquescommunes sont regroupées. Par contre, l’approche par initialisation ne dispose initialement qued’une seule structure : celle connue sur l’image courante. L’image suivante n’est en effet pasencore structurée, la définition du regroupement est donc moins évidente.

Pour cette raison, nous commencerons par étudier plus en détail le cas où les structures àregrouper sont déjà existantes. En particulier, il est nécessaire de définir des relations entre elles,qui permettent de décider si leur regroupement doit avoir lieu ou pas.

5.2 Relations spatio-temporelles entre structures

Par relation spatio-temporelle, nous entendons un descripteur, qualitatif ou quantitatif, quis’applique à plusieurs structures spatio-temporelles. Cette définition très générale peut prendreen compte plusieurs propriétés des structures.

Une structure spatio-temporelle possède tout d’abord un aspect géométrique, lié à la posi-tion spatio-temporelle des pixels qui ont donné lieu à la composition de la structure, ainsi qu’aumodèle de mouvement éventuellement associé à celle-ci. Le support des structures est particu-lièrement concerné par des relations topologiques telles que l’intersection, mais aussi par des

Page 116: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

116 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

mou

vem

ent

tem

pore

l

couleurpixels

trajectoires

groupes detrajectoires

blobs

tubes

hiérarchie de tubes

mou

vem

ent

tem

pore

l

couleurpixels

(a) (b)

blobs /régions hiérarchie

mou

vem

ent

tem

pore

l

couleur

pixels

trajectoire

pixels

tem

pore

l

couleur

mvt

support STdes couches

couches

(c) (d)

FIG. 5.1 – Caractérisation synoptique des méthodes de structuration spatio-temporelle par com-position des regroupements (I).(a) : Segmentation de trajectoires par le mouvement. La caractérisation est assez générique desapproches du chapitre3.(b) : Segmentation dans le domaine spatio-temporel joint introduite à la section4.3(c) : Suivi de taches ou de régions de couleur issus d’une hiérarchie. La hiérarchie n’est paselle-même mise en correspondance temporelle. Caractéristique d’une approche de suivi baséesur des primitives multi-échelles, comme celle que nous utilisons à la section3.2.(d) : Segmentation avec un modèle par couches [4], vu à la section4.1. Le mouvement est laseule information utilisée pour la segmentation spatiale.

Page 117: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.2. RELATIONS SPATIO-TEMPORELLES ENTRE STRUCTURES 117

régions hiérarchie

guide

mou

vem

ent

tem

pore

l

couleur

pixels

trajectoire

partition mouvement

trajectoires de régions

partition ST

partition couleur

couleurm

ouve

men

t

tem

pore

lcouleur

pixels

guide

(e) (f)

FIG. 5.2 – Caractérisation synoptique des méthodes de structuration spatio-temporelle par com-position des regroupements (II). Ces deux méthodes présentent la particularité de guider le re-groupement d’une structure par une structure d’ordre plus élevé.(e) : Suivi de régions de couleur issues d’une hiérarchie. La méthode [34] présentée à la sec-tion 4.1.2suit une partition, l’ensemble des noeuds de la hiérarchie n’est donc pas suivi. Cepen-dant, la hiérarchie est utilisée pour aider au suivi.(f) : Suivi de régions de couleur, en parallèle avec le regroupement de ces régions par le mouve-ment. Le regroupement par le mouvement aide au suivi des régions. Les méthodes correspon-dantes ont été abordées à la section4.1.2. L’approche [31] conduit l’analyse jusqu’à appariertemporellement les segmentations spatio-temporelles de couleur pour former des trajectoires deplus grand horizon temporel que l’appariement simple de proche en proche.

Page 118: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

118 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

relations de distances ou de positions relatives. Les propriétés de mouvement peuvent quant àelles être mises en relation par comparaison.

Une structure spatio-temporelle possède aussi des caractéristiques non géométriques, tellesque la couleur, la texture, qui sont liées à l’aspect géométrique et l’enrichissent : la structurespatio-temporelle détermine où et quand s’appliquent les caractéristiques non géométriques as-sociées. La comparaison de telles caractéristiques permet d’enrichir également les relationsentre les structures.

L’exposé qui suit est relativement général, et s’applique à tout type de relation qui entre dansle cadre de notre définition.

5.2.1 Relations synchrones

Relations spatiales Les relations purement spatialessont celles qui sont spécifiées sur uneimage. Étant donné un ensemble de structures spatio-temporelles, on peut définir des relationspurement spatiales entre elles en restreignant l’analyse à une seule image. Ce type de relationsest assez intéressant d’un point de vue de l’interprétation intuitive des résultats, car il est naturelde définir une relation sur une image, même si les structures sur lesquelles elle porte ont unedimension temporelle. En contrepartie, si les relations sont déterminées sur une seule image, lesstructures ne sont pas prises en compte dans leur intégralité.

Combinaison de relations spatiales Afin d’étendre les relations spatiales à plusieurs images,nous définissons lesrelations synchrones, qui sont les relations obtenues par combinaison derelations spatiales. Une telle relation peut donc dépendre de plusieurs images, mais à aucuneétape de la construction de la relation n’intervient de relation entre des entités définies surdes intervalles temporels distincts, d’où la qualification de synchrone. La figure5.3 illustre laconstruction d’une relation synchrone à partir de relations spatiales.

image de référence

mises en relationtranches spatiales

mises en relationsous−parties

intervalle de référence

combinaison

espa

ce

temps

(a) (c)(b)

relation spatiale relations spatialesensemble de relation synchrone

FIG. 5.3 – Illustration du passage de relations purement spatiales à une relation synchrone.(a) : Une relation spatiale concerne une tranche de chaque structure pour le même instant. (b) :Plusieurs relations spatiales sont définies sur un intervalle temporel. (c) : La combinaison de cesrelations spatiales donne une relation synchrone qui est définie sur un intervalle temporel.

Causalité Parmi les relations synchrones, on peut encore faire une distinction entre celles quiprennent en compte l’ordre temporel des images (relations causales), et les autres (relations noncausales). Parmi les relations synchrones non causales, on peut citer celles utilisant les opéra-teursn-aires logiques (et, ou), ou numériques (min, max, moyenne) appliqués à un ensemble

Page 119: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.2. RELATIONS SPATIO-TEMPORELLES ENTRE STRUCTURES 119

den relations purement spatiales. Ainsi les relations purement spatiales géométriques (distancemutuelle, position relative), les relations d’inclusion et de recouvrement spatial peuvent êtreétendues pour former par exemple une distance minimale sur un intervalle temporel donné, untaux de recouvrement moyen, etc... Parmi les relations spatiales non géométriques, toutes lesformes de similarité ou de distances entre les caractéristiques non géométriques sont envisa-geables.

Lorsque l’ordre temporel des images intervient, on peut rendre compte des évolutions desstructures l’une par rapport à l’autre. Ainsi, le déplacement relatif entre deux structures, définicomme la différence entre les distances séparant celles-ci à deux instants distincts, est une rela-tion synchrone causale. Les relations synchrones peuvent rendre compte de la comparaison desévolutions temporelles relatives de deux structures spatio-temporelles.

5.2.2 Relations asynchrones

Lorsqu’il n’est pas possible d’exprimer une relation en la décomposant en relations pure-ment spatiales, nous diront que celle ci est unerelation asynchrone. Elle implique en effet demettre en lien des éléments de la structure qui ne sont pas présents au même moment.

Relations purement temporelles Les relations purement temporelles sont un type particulierde relations asynchrones. Elles incluent notamment la logique basée sur les intervalles de Allen[1], concernant l’ordre et les recouvrements des intervalles temporels d’existence des structures.

Ces relations sont utiles dans une phase de résumé d’une séquence, afin d’exprimer les pro-priétés de son organisation temporelle. Ceci intervient cependant en fin de chaîne d’analyse, unefois qu’une segmentation spatio-temporelle est disponible. Dans une phase antérieure d’ana-lyse, ces relations présentent peu de pouvoir d’expression, et ne sont pas adaptées à qualifier lesévolutions temporelles d’un contenu visuel ayant une dimension spatiale.

Prise en compte du spatial Les relations asynchrones font intervenir des caractéristiques quisont présentes à des instants différents. Un tel lien asynchrone est cependant délicat. En effet,les relations qui en résultent sont dépendantes de la présence éventuelle de déplacements de lacaméra ou des objets, ce qui n’est pas toujours souhaitable.

Pour estimer si deux structures spatiales à des instants distincts coïncident en présence d’unmouvement de caméra arbitraire il est nécessaire de compenser ce dernier. Par exemple, lamise en correspondance temporelle de régions (relation asynchrone) se base sur l’intersectionspatiale de leurs supports (relation synchrone), après une étape de compensation du mouvement(projection temporelle).

D’une façon plus générale, une relation synchrone entre des extensions temporelles de struc-tures est un cas particulier de relation asynchrone entre les structures elles-mêmes. La figure5.4illustre ce type de relations sur un exemple avec deux structures.

Hypothèses d’évolution temporelle L’extension temporelle de la structure repose sur des hy-pothèses quant à l’évolution supposée de la structure au delà de son intervalle temporel d’exis-tence. En pratique, cette extension nécessitera soit une extrapolation temporelle des paramètresobservés au sein de la structure, soit le recours à des informations estimées par ailleurs. Pourla compensation de mouvement, l’extrapolation reposera sur un modèle de mouvement estimésur la structure, ou sur l’accès à des paramètres de mouvement estimés directement à partir del’image.

Page 120: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

120 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

intervalle d’analyse

espa

ce

temps(a) (b) (c)

relation asynchrone

B

A

projection temporellerelation spatialeentre projections relation synchrone

extension temporelle

FIG. 5.4 – Illustration d’une relation asynchrone définie comme une relation synchrone entre lesextensions temporelles des structures. (a) : Les structures A et B n’ont pas d’intersection tem-porelle, les seules relations spatio-temporelles entre elles sont asynchrones. (b) : Une tranche dela structure A peut être projetée dans l’intervalle de présence temporelle de la structure B ; dansce cas, on peut utiliser une relation synchrone entre la projection et une tranche de la structureB. (c) : Une extension temporelle de la structure A est obtenue par de multiples projectionstemporelles ; cette extension est comparée à la structure B par des relations synchrones ; ceciest un type particulier de relations asynchrones entre A et B.

La compensation des variations temporelles est un préalable à la définition de relationsentre des éléments présents à des instants différents. Définir des relations asynchrones en sepassant d’une projection temporelle revient implicitement à supposer que l’évolution temporelledes structures considérées est nulle ou négligeable. C’est ce qui arrive par exemple, lorsquel’on compare directement les caractéristiques de structures à deux instants distincts. Pour descaractéristiques géométriques spatiales, cela équivaut à supposer le mouvement nul, pour lescaractéristiques non géométriques telle que la couleur, cela équivaut à les supposer invariantesdans le temps.

Relations resynchronisées Nous définissons lesrelations resynchroniséescomme des rela-tions synchrones appliquées à des extensions temporelles des structures. Ces relations sont untype particulier de relations asynchrones, présentant l’avantage d’avoir un fondement clair, sanshypothèses cachées sur les liens supposés entre dimensions spatiales et dimension temporelle.Ces hypothèses sont rendues explicites par l’opération de resynchronisation, qui consiste à pro-longer les structures, de façon à pouvoir comparer ces prolongements de façon synchrone.

La figure5.4représente la formation de relations resynchronisées asymétriques : l’extensiond’une structure est comparée à l’autre structure directement. Dans notre cadre, l’axe du tempsest réversible, on peut donc imaginer une resynchronisation en avant, comme dans l’exemple,ou en arrière, c’est à dire impliquant de prolonger la deuxième structure dans le passé. La resyn-chronisation peut aussi avoir lieu sur chacune des structures, afin de donner un rôle symétriqueà chacune d’elles.

5.2.3 Synchronisme et regroupements

La discussion précédente introduit un nouveau concept : la resynchronisation. Celui-ci per-met de lier dimensions spatiales et temporelle sur des hypothèses explicites. Nous nous limitonsà présent à l’utilisation de relations asynchrones définies uniquement à travers une telle resyn-chronisation, ce qui implique d’avoir une formulation synchrone des relations utilisées. Ce cadre

Page 121: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.2. RELATIONS SPATIO-TEMPORELLES ENTRE STRUCTURES 121

assez strict nous amène à reconsidérer les trois types de regroupements : par la couleur ou latexture, par le mouvement, par continuité temporelle.

Regroupements par la couleur ou la texture et le mouvement Les regroupements se basantsur la couleur, la texture et le mouvement se prêtent bien à une définition synchrone. Cecis’interprète de la façon suivante : des structures sont regroupées par la couleur ou le mouvementseulement par comparaison de ces critères sur des tranches spatiales du bloc spatio-temporel.

En particulier, pour le mouvement, deux types de traitement sont adaptés. En premier lieu, lemouvement peut être non structuré, sous la forme d’un champ de flot optique par exemple. Desvecteurs de flot issus d’images distinctes ne sont pas mis en relation. Deuxièmement, le mou-vement est aussi l’évolution temporelle de paramètres spatiaux. On a vu au chapitre3 commentcomparer ces évolutions de façon synchrone.

Regroupements par continuité temporelle L’étape de resynchronisation apparaît plus par-ticulièrement liée à la continuité temporelle des structures. La notion de prolongement géomé-trique amène une définition basée sur la coïncidence des supports spatiaux : le prolongementgéométrique d’une primitive coïncide avec le support géométrique de l’autre, ou inversement.La continuité temporelle concerne aussi d’autres critères que la seule position. En effet, deuxprimitives en continuité temporelle géométrique, mais ayant des couleurs différentes sont peuprobablement en continuité temporelle.

synchrone asynchrone

couleur/texture similarité spatiale de couleurinvariance temporelle de la

couleur

mouvementcohérence spatiale du

mouvementinvariance temporelle desparamètres de mouvement

support spatialcoïncidence des supports sur

un intervalle temporelcommun

continuité temporelle dessupports

FIG. 5.5 – Hypothèses utilisées pour le regroupement de structures, en fonction du type decaractéristiques sur lesquelles le regroupement se base et du synchronisme des relations spatio-temporelles utilisées. L’invariance et la continuité temporelle dans le cas asynchrone sont tou-jours définies par rapport à un modèle de resynchronisation.

Nouvelle définition de la continuité temporelle Nous redéfinissons donc la notion de conti-nuité temporelle en l’exprimant par rapport à la couleur ou la texture, le mouvement, la position,ou plusieurs de ces critères à la fois. L’étape de resynchronisation doit définir quelles sont leshypothèses utilisées concernant l’évolution temporelle des critères utilisés. En général, il s’agirad’hypothèses d’invariance temporelle. La table5.5 illustre les hypothèses liées aux différentscouples associant synchronisme et critère de regroupement.

La figure5.6illustre trois manières de mettre en relation deux structures, qui correspondentaux types de relations acceptables définies dans notre discussion sur le synchronisme des rela-tions.

Page 122: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

122 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

A’

B’

���������������������

���������������������

���������������������������������

���������������������������������

���������������������������

���������������������������

A’

A’

B’

B’

temps

(a) (b) (c)

supp

ort

temps

comparaison

restriction temporelleprojection temporelle

comparaison

projection temporelle

para

mèt

res

temps

B’

A’ A’

entreparamètres

distanceA’

A

B

inte

rpré

tatio

n en

term

ede

coi

ncid

ence

des supportscoincidence

chro

nogr

amm

e A

B

A

B

de s

imila

rité A

B

A

B

A

B

inte

rpré

tatio

n en

term

e

ABA’+B’

A’

B’

A’+B

A’

B

A’

B’

A’+B’A

BA

FIG. 5.6 – Mise en relation de structures spatio-temporelles par l’intermédiaire d’une resyn-chronisation. (a) Relation synchrone : les structures sont restreintes à un intervalle temporelcommun avant d’être comparées. (b) Relation resynchronisée asymétrique : la structureA estprojetée temporellement enA′, qui est comparée à la structureB. (c) Relation resynchroniséesymétrique : les structuresA et B sont projetées enA′ et B′, qui sont définies sur le mêmeintervalle temporel, avant d’être comparées.Ligne du haut) Chronogramme qui indique l’intervalle temporel sur lequel les structures sontdéfinies, ainsi que les relations entre les structures sous la forme de flèches. Les structuresA′

etB′ sont issues de la resynchronisation deA etB, par projection temporelle. La comparaisonentreA′ etB′ peut être basée sur des critères de regroupement arbitraires, tels que la couleur, lemouvement ou la position.Ligne du milieu) Interprétation particulière lorsque la comparaison est une similarité ou une dis-tance sur les paramètres deA′ etB′. Ce type de comparaison peut être appliqué aux critères decouleur ou de mouvement, et aussi à la position. Il correspond généralement à une modélisationrelativement simple des caractéristiques de la structure, sous la forme de quelques paramètres.Ligne du bas) Interprétation particulière lorsque la comparaison est de type coïncidence entresupports. Ce type de comparaison est généralement réservé à la position, pour laquelle il est cou-rant d’avoir des supports spatiaux ayant des formes arbitraires. Il permet de prendre en compteune modélisation plus complexe qu’un simple paramétrage.

Page 123: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.3. ADAPTATION DE STRUCTURES EXISTANTES 123

La discussion précédente nous a amené à préciser les types de regroupement. Un regroupe-ment ainsi formalisé est composé de deux aspects orthogonaux. L’aspect spatial indique quelscritères le regroupement prend en compte : position, couleur ou mouvement. L’aspect temporelindique quelles sont les hypothèses d’évolution temporelle de ces critères.

5.3 Adaptation de structures existantes

Nous avons jusqu’à présent présenté les regroupements pour des structures déjà existanteset fixées. Dans certains contextes, les structures ne sont pas obtenues par regroupement de sous-structures existantes, mais par extension de structures existantes, ou par création de nouvellesstructures, guidées par les structures déjà existantes. Nous considérons le cas de l’extensiontemporelle.

5.3.1 Formalisation

Pour la formalisation de ce processus nous nous inspirons de la mise en correspondanceentre primitives déjà existantes. Reprenons les approches de mise en correspondance résumésà la figure5.6. L’approche (b) consiste en la projection temporelle deA en A′, suivie d’unecomparaison deA′ et deB. Cette méthode applique peu de traitement à la primitiveB : elle estcomparée àA′ sans étape intermédiaire.

Nous supposerons à présent que la primitiveA est connue, mais que la primitiveB n’est pasencore extraite. Dans ce cas, nous dirons que la primitiveB répond à deux types de contraintes :des contraintes internes (elle doit être formée par regroupement de primitives d’ordre inférieur),et des contraintes externes (elle doit rester suffisamment proche de la projectionA′). Ces deuxaspects sont illustrés à la figure5.7.

Contraintes Les contraintes internes correspondent à la nature des regroupements qui consti-tuent la primitive. Ces contraintes sont notamment appelées «attache aux données», pour si-gnifier que les regroupements qui ont conduit à la formation deB ont pour origine les donnéesque constitue le signal vidéo. Cette contrainte d’attache aux données est propre à chaque type destructure : une tache de couleur doit être relativement homogène sur son support, une trajectoirede taches doit avoir une cohérence temporelle à partir de taches elles-mêmes homogènes.

Les contraintes externes peuvent prendre plusieurs formes dans une telle situation. Le nomd’approche par initialisation, que nous reprenons de la section4.1.2, s’illustre particulièrementdans un cadre itératif.B est initialisé àA′, puis est itérativement raffiné de façon à prendre encompte les contraintes d’attache aux données. Ce processus peut dans certains cas aboutir à unoptimum loin de l’initialisation. Un point de vue plus général est de considérer queB est extraiten prenant en compte à la fois l’attache aux données et une forte similarité avecA′.

Création d’une nouvelle structure Dans les deux cas, la primitivesB n’est pas entièrementinexistante au début, puisqu’un modèle de celle-ci existe sous la forme deA′. Ce modèle peutêtre qualifié de «structure virtuelle», étant donné qu’il n’est pas issu du signal proprement dit,mais est obtenu par application d’une projection temporelle. La création deB revient dans cecas à adapter le modèleA′ déjà existant, de façon à prendre en compte également le signal, oudes structures de niveau inférieur.

Par le prolongement deA, deux structures nouvelles apparaissent :A′ et B. En particulier,B représente une structure à part entière, qui est basée sur des structures d’ordre inférieur,

Page 124: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

124 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

et possède donc une pertinence de ce point de vue. Son adaptation à partir deA′ est un casparticulier de recherche attentive d’une structure, basée sur le prolongement temporel.

Dans le processus, les connaissances a priori interviennent à présent à deux endroits : unepremière fois lors de la projection deA, et une deuxième fois lors de l’adaptation deA′ enB.Le type de contrainte utilisée pour juger de la cohérence deB par rapport àA′ est ouvert. Lasection suivante illustre plusieurs types de contraintes, et montrent comment ceux-ci conduisentà des résultats différents.

adaptation

regroupement

A

projection

A’

B

FIG. 5.7 – Processus d’adaptation d’une structure. La structureA est projetée temporellement enA′. L’adaptation deA′ prend en compte les structures d’ordre inférieur, pour former la structureB. B est ainsi à la fois similaire àA′, et obtenu par regroupement de structures indépendantesdeA.

5.3.2 Dilemme de l’adaptation

La figure 5.8 présente plusieurs cas de groupes spatio-temporels ayant le même supportspatio-temporel, mais issus de modélisations par surface opaque différentes. Dans tous les cas,on a mis l’accent sur une partie sombre, que l’on voit apparaître, grossir, puis rester à tailleconstante. Le reste de la scène est de couleur distincte de la partie sombre.

En supposant les objets de couleur uniforme, une segmentation basée uniquement sur lacouleur est limitée à observer la distinction entre partie sombre et partie claire. De même unesegmentation spatiale basée uniquement sur le mouvement est limitée à ne pouvoir faire ladifférence qu’entre les classes que nous avons numérotées (1) et (2). On notera l’action del’occultation dans la création de telles ambiguïtés : la zone sombre d’intérêt peut en effet êtreoccultée (a et b), occultante (d), ou bien ne pas être impliquée dans une occultation (c).

Interprétation de la notion de continuité temporelle Considérons une structure initiale àun instant donnét, représentée à la figure5.9, qui contienne l’ensemble des points du supportcoloré pour cet instant. Trois interprétations différentes de sa continuité temporelle sont envi-sageables : la continuité en suivant les lignes de mouvement, la continuité par la similarité decouleur, la continuité par la similarité de mouvement.

Suivre les lignes de mouvement consiste à effectuer la projection temporelleA′, puis à luiassocier la structureB qui coïncide avec elle d’un point de vue spatial. Dans cette approche,A′ et B sont confondus, et résumés à leur support géométrique. La structure finale obtenue enappliquant cette méthode est de la forme du support mis en évidence à la figure5.9.

L’ajout d’une adaptation par similarité de couleur donne un résultat différent : on retrouvele support coloré introduit au début. De même pour l’adaptation par similarité de mouvement :on retrouve les supports marqués (1) et (2).

Page 125: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.3. ADAPTATION DE STRUCTURES EXISTANTES 125

t0 t1t0 t1

espa

cees

pace

temps tempses

pace

temps

espa

ce

temps(d) objet grossissant(c) zoom

(b) ouverture

(1)(2)

(a) désoccultation

P

(1)(2)

(1)

(1)

(2) (2)

(2)

(2)

FIG. 5.8 – Exemples de supports spatio-temporels de forme analogue mais issus de modélisa-tions par surfaces opaque différentes. On a représenté une coupe du bloc vidéo contenant unedimension d’espace et une dimension de temps ; les flèches représentent le mouvement modé-lisé. Les numéros entre parenthèses indiquent l’objet en avant plan (1) et l’objet occulté (2).(a) : L’objet 1 se déplace vers le bas, et découvre l’objet 2, dont une partie est foncée.(b) : L’objet 1 ménage une ouverture fixe, à travers laquelle est visible l’objet 2. L’objet 2 sedéplace vers le bas. Il est constitué d’une partie claire, visible au début, et d’une partie sombre,visible à la fin.(c) : La scène est statique, sauf dans l’intervalle[t0, t1], pendant lequel il y a un zoom. La partiesombre apparaît à l’instantt0, alors qu’elle a une très petite taille.(d) : L’arrière plan est fixe. L’objet 1 apparaît alors qu’il est très petit, et grossit, occultant ainsil’arrière plan.

Page 126: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

126 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

Interprétation de la notion d’objet Les situations que nous avons introduites sont typiquesde l’ambiguïté que des occultations introduisent dans le suivi d’un objet. Les trois approchesadoptent des points de vue différents sur la façon de définir un objet. Le point de vue géomé-trique considère qu’un objet est un ensemble de points matériels de la scène que l’on désiremettre en correspondance temporelle. Les deux autres points de vue considèrent qu’un objet estplus qu’un ensemble de points, car on peut le distinguer du reste de la scène par un ensemblede caractéristiques particulières, dont la couleur et le mouvement.

Notre formalisation ne définit pas de préférence : quelle approche utiliser est dépendant del’application, et de l’interprétation souhaitée de la séquence. Le type d’adaptation est un para-mètre libre, au même titre que le choix des types de regroupements ou de projection temporelle.

(c) et (d)ttt

espa

ce

temps temps

espa

ce

espa

ce

temps(b)

initialisation

�����������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������

(a)

FIG. 5.9 – Support généré par une tranche à l’instantt dans les situations (a-d) de la figure5.8.La tranche de référence est représentée en gras à l’instantt. La partie grisée montre le volumespatio-temporel que les points de cette tranche balayent en se déplaçant dans le temps confor-mément au modèle par surface opaque (mouvement représenté par les flèches).

5.4 Continuité temporelle et inclusion

La notion de prolongement temporel a été jusqu’à présent évoquée sans préciser d’où viennentles hypothèses qui permettent une telle projection. La brique de base de notre formalisme étantle regroupement, on pense naturellement à lier les informations et les hypothèses présentes dansdes structures imbriquées.

Lorsqu’une structure est découpée en sous-structures, on peut projeter temporellement cha-cune des sous-structures individuellement. Lorsque la structure fait partie d’une sur-structure,sa projection temporelle peut tirer parti des informations liées à la sur-structure. Il y a ainsiinteraction entre le regroupement temporel d’une structure et les autres regroupements. Nousqualifierons ces derniers de relations d’inclusion : la structure est incluse dans, ou contientd’autres structures.

Transmission hiérarchique de l’information Reprenons une nouvelle fois le schéma dela figure5.6-(b), et complétons la par des sur-structures et des sous-structures deA (voir fi-gure5.10). Ce schéma rend maintenant mieux compte des relations queA entretient avec leniveau image, par l’intermédiaire de ses sous-structures, et avec les niveaux d’abstraction plusélevés, par l’intermédiaire de ses sur-structures.

Afin de pouvoir échanger de l’information entre les structures ainsi reliées, il est nécessairede supposer un lien causal entre leurs propriétés. Ce lien est apparenté au principe Gestalt

Page 127: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

5.4. CONTINUITÉ TEMPORELLE ET INCLUSION 127

A

P

projection

comparaison

A’

B

sous−structures de AF

guidagepargénéralisation

guidage par spécialisation

sur−structures de A

FIG. 5.10 – Transmission d’informations provenant de sur- et sous-structures afin de guider laprojection temporelle d’une structureA. Les propriétés valables surP sont aussi valables surA, carA est une spécialisation deP . Les propriétés valables sur un ensemble de sous-structuresreprésentatives deA peuvent être généralisées afin de produire une propriété surA utilisablepour la projection.

d’héritage par les parties de la direction générale du groupe énoncé par Kanizsa et reportépar Desolneux et al. [23]. Les sous-structures héritent ainsi des propriétés que la sur-structurepossède.

Par exemple, lorsqu’on estime un mouvement paramétrique sur une région de couleur, et quel’on se sert des paramètres obtenus pour projeter la région sur l’image suivante, on suppose quechaque pixel composant la région vérifie aussi le modèle de mouvement. Le lien de causalités’exprime ainsi : le pixel appartient à la région, et la région dans son ensemble se déplace selonun certain modèle, donc le pixel vérifie ce modèle.

Dans l’autre sens, considérons un ensemble de régions. La connaissance des paramètres demouvement de chacune des régions permet la définition d’un modèle général, qui s’appliqueà l’ensemble. En utilisant un modèle suffisamment complexe, il est possible d’approcher defaçon unifiée chacun des modèles des régions individuelles. Dans ce cas le lien causal part dela sur-structure, qui possède un modèle global s’appliquant en particulier à chaque structure quila compose.

En pratique, le modèle général est destiné à être moins complexe que l’union des modèlesindividuels. Si les régions ont des mouvements complètement incohérents, l’hypothèse de cau-salité est mise à mal, car le modèle global ne s’appliquera plus aux régions individuelles.

Spécialisation et généralisation Le sens sur-structure vers structure est celui de laspéciali-sation. Ce qui est vrai sur la totalité de la structure est aussi vrai sur une restriction de celle-ci.La projection temporelle de la structure peut donc recevoir de l’information de la sur-structurequi définit les hypothèses sous-jacentes à la projection.

Le sens sous-structure vers structure est celui de lagénéralisation. Dans ce cas, une seulesous-structure n’est pas suffisante, car elle n’est qu’une partie de l’ensemble de la structure.Pour compléter, il est nécessaire de recourir à plusieurs sous-structures afin que les informationscollectées soient représentatives de la structure. En généralisant ces informations, c’est à dire entrouvant un modèle commun à celles-ci qui puisse s’appliquer à la structure, on construit aussides hypothèses qui peuvent être utilisées pour la projection.

Page 128: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

128 CHAPITRE 5. RÉSEAU SPATIO-TEMPOREL DE PRIMITIVES

5.5 Récapitulatif

Les concepts que nous avons introduits dans ce chapitre sont assez théoriques, c’est pour-quoi nous présentons ici un récapitulatif, afin de mieux cerner les points importants.

Les structures spatio-temporelles sont définies comme le regroupement récursif de pixelsdu bloc vidéo. Les critères de regroupement successifs définissent le type de la structure. Lesrelations spatio-temporelles permettant de décider des regroupements de structures sont toujoursdécomposées en un aspect temporel, la projection temporelle, et un aspect spatial, la relationsynchrone.

Ceci nous donne deux niveaux de détail pour définir les regroupements. Le premier niveause détaille en similarité de couleur ou de texture, similarité de mouvement, et continuité tem-porelle. En ramenant les relations à des relations synchrones, la continuité temporelle apparaîtcomme un mélange de plusieurs critères. Dans un second niveau de détail, les regroupements sefondent ainsi fondamentalement sur trois critères : la similarité de couleur/texture, la similaritéde mouvement, la proximité spatiale. Nous avons vu que le critère de proximité spatiale pouvaitaussi être pris sous la forme de la coïncidence spatiale, c’est à dire de l’alignement au pixelprès.

Nous avons aussi introduit l’extension temporelle d’une structure par l’adaptation d’un mo-dèle issu d’une projection temporelle. Les paramètres de la projection temporelle peuvent pro-venir de connaissances issues d’une sur-structure, ou d’un ensemble de sous-structures.

Un point central est que les relations synchrones sont définies pour tout type de structure, etpas uniquement pour des structures spatiales. Notre approche de la segmentation de trajectoirespar le mouvement est ainsi basée uniquement sur des relations synchrones entre les trajectoires.Une relation synchrone peut aussi bien comparer des couleurs au sein d’une image donnée,qu’évaluer la similarité du mouvement entre deux structures sur un intervalle temporel étendu.

Deuxièmement, la projection temporelle est aussi un outil générique. On peut en effet définirune projection temporelle à partir d’une structure spatiale vers une structure spatio-temporelle etinversement. Le résultat de la projection n’a donc pas forcément la même dimension temporelleque la structure initiale.

Page 129: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Chapitre 6

Conclusion

Bilan Au chapitre2, nous avons étudié l’extraction de primitives spatiales à partir d’imagesissues d’une séquence vidéo. Après avoir présenté comment extraire des taches dans un cadreespace-échelle dans des images à niveaux de gris, nous avons proposé plusieurs adaptations decette théorie aux images couleurs. L’une d’entre elles a été plus particulièrement développéepour sa faculté à extraire de façon unifiée des blobs de couleurs différentes. Nous avons montrécomment cette approche pouvait être interprétée en terme d’estimation de densité, et les liensqu’elle entretenait avec une méthode de segmentation d’image couleur par classification despixels. Sa mise en oeuvre a pris appui sur la remontée de gradients par «mean-shift», que nousavons étendue de façon à extraire une représentation hiérarchique des blobs de couleur multi-échelle. Enfin, à partir de cette représentation, nous avons étudié l’application de méthodesde simplification de hiérarchies, qui permettent d’obtenir une segmentation de l’image avecsélection automatique de l’échelle.

Le chapitre3 a été consacré au suivi des taches introduites au chapitre2, afin de produireune organisation de la séquence à travers des trajectoires. Leur comportement dynamique a étéanalysé du point de vue de mouvements simples, ainsi que sur des séquences de type audiovi-suel. Les taches avaient déjà été utilisés pour suivre des objets d’intérêt, mais pas dans le cadredu suivi de l’ensemble des éléments de la séquence. Dans un tel contexte, il n’est pas possibled’assurer que toutes les trajectoires soient définies sur l’ensemble de la séquence. Ceci nousa amené à proposer une méthode de segmentation par le mouvement qui prenne en compte laprésence de trajectoires de longueurs variées.

Le chapitre4 a abordé le problème de la structuration sous un autre angle : la segmentationdes pixels du bloc spatio-temporel. Il est en grande partie issu du stage de six mois effectuéà l’université du Maryland, en collaboration avec Daniel DeMenthon. L’analyse de l’existanta mis en avant une grande prépondérance de méthodes basées sur une segmentation spatialesuivie d’une propagation temporelle. Les méthodes prenant en compte l’espace et le temps defaçon conjointe nécessitent quant à elles de fixer le nombre de classes. Nous avons proposé uneméthode d’extraction de tubes de couleur spatio-temporels basée sur la classification dans unespace de caractéristiques, qui prend en compte l’ensemble d’un bloc vidéo d’une vingtained’images, tout en produisant une structure hiérarchique. Cette représentation présente l’avan-tage de permettre l’évaluation de la stabilité temporelle de ces primitives, en se basant sur lamesure de la superposition des tubes obtenus par des analyses séparées.

Enfin, fort de l’expérience acquise, nous avons proposé au chapitre5 une réflexion sur laformalisation des différents approches que nous avons abordées au cours de ce travail. Celle-cifonde la notion de structure sur le concept de regroupements récursifs. Nous introduisons pa-rallèlement les notions de relations synchrones de projection temporelle, qui sont la base des

129

Page 130: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

130 CHAPITRE 6. CONCLUSION

comparaisons entre structures. Ce cadre permet de rendre explicites l’ensemble des structuresmanipulées implicitement par une méthode de structuration, ainsi que les hypothèses d’évolu-tion temporelle sous-jacentes.

Perspectives Nous avons pris le parti de manipuler des structures spatio-temporelles simples :les primitives spatio-temporelles. En comparaison avec des méthodes, notamment à priorité spa-tiale, qui élaborent un modèle visuel précis de la scène, les potentialités en terme de précisiondes résultats sont moindres. Ceci nous a permis de considérer un nombre plus important d’enti-tés, sans décider a priori d’une simplification à une échelle fixée à l’avance.

La mise en cohérence des structures, lorsqu’elle intervient tôt dans le processus de struc-turation, présente l’avantage de baser les traitements sur des représentations simples et sansambiguïté. La partition d’une image en est un bon exemple, de même que le suivi d’un nombreréduit de cibles dans une séquence. D’un autre côté, elle contraint à manipuler une représenta-tion unique. Le concept de représentation hiérarchique, que nous avons exploré dans différentscontextes, nous a offert un bon compromis entre la multiplicité des représentations et la non-ambiguïté de celles-ci.

Nos mises-en-oeuvre ont été ascendantes : les structures d’un type donné se fondent sur desstructures d’un type plus simple calculées à l’avance. En apportant une plus grande diversitédes structures extraites, l’utilisation de hiérarchies a cependant augmenté les chances qu’unestructure à un niveau donné soit jugée pertinente à un niveau supérieur. Par exemple, dans lesuivi de taches, les trajectoires concernent plusieurs niveaux d’échelle. Il est en effet difficile dejuger dès la détection d’une structure si celle-ci sera utile ou non dans les phases ultérieures.

Un pas supplémentaire consisterait à associer des structures issues d’approches complémen-taires. Il faudrait alors gérer des représentations diverses, qui ne seraient pas toujours compa-tibles. La formalisation du dernier chapitre espère contribuer à une telle avancée, en proposantun cadre unificateur, où la notion de support spatio-temporel est bien intégrée. Celle-ci offreun point de référence commun permettant de lier des représentations issues de méthodes diffé-rentes.

Une piste voisine concerne le bouclage de pertinence au sein de la représentation. Dans uneapproche ascendante, la structuration à un niveau donné est limitée par l’information disponibledans les structures inférieures. La représentation sous la forme d’un ensemble de primitives per-met d’envisager l’ajout de nouvelles structures ou l’adaptation de celles existantes lorsque lesstructures déjà extraites ne sont pas suffisantes. La gestion de la cohérence globale devient alorsun problème à part entière, qui n’est plus implicitement résolu par l’utilisation d’une représen-tation contraignante. Il s’agit pourtant d’un passage nécessaire, lorsque des représentations detypes différents doivent collaborer.

Des pistes pour la prise en compte de cette cohérence peuvent être trouvées du côté desthéoriciens du Gestalt (voir [23]), qui ont mis en évidence un ensemble de lois qui sont im-pliquées dans le passage d’un ensemble de gestalts partiels (structures indépendantes) vers ungestalt global, qui exprime au mieux la perception issue d’une observation. En particulier, ony retrouve des concepts tels que le renforcement de gestalts compatibles, et la résolution desconflits par masquage.

Page 131: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Bibliographie

[1] J.F. Allen. Towards a general theory of action and time.Artificial Intelligence, 23(2):125–154, 1984.

[2] M. Allmen et C. R. Dyer. Computing spatiotemporal relations for dynamic perceptualorganization.Computer Vision, Graphics and Image Processing: Image Understanding,3(58):338–351, 1993.

[3] J.Y. Aloimonos, I. Weiss, et A. Bandopadhay. Active vision.International Journal ofComputer Vision, 1:333–356, 1987.

[4] S. Ayer et H. S. Sawhney. Layered representation of motion video using robust maximum-likelihood estimation of mixture models and MDL encoding. InIEEE International Confe-rence on Computer Vision, pages 777–785, Cambridge, MA, 1995.

[5] G. Baldi, C. Colombo, et A. Del Bimbo. A compact and retrieval-oriented video re-presentation using mosaics. InInternational Conference on Visual Information Systems(VISUAL), pages 171–178. LNCS 1614, Springer-Verlag, 1999.

[6] I. Biederman. Recognition-by-components: A theory of human image understanding.Psy-chological Review, 94:115–147, 1987.

[7] N. Brady et N. O’Connor. Object detection and tracking using an EM-based motion esti-mation and segmentation framework. InInternational Conference on Image Processing,volume 1, pages 925–928, 1996.

[8] L. Bretzner et T. Lindeberg. Qualitative multi-scale feature hierarchies for object tracking.In Journal of Visual Communication and Image Representation, volume 11, pages 115–129, 2000.

[9] C. Carson, S. Belongie, H. Greenspan, et J. Malik. Blobworld: Color- and texture-basedimage segmentation using EM and its application to image querying and classification.IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8):1026–1038, 2002.

[10] R. Castagno.Video segmentation based on multiple features for interactive and automaticmultimedia applications. Thèse de doctorat, EPFL, Lausanne, Suisse, 1999.

[11] R. Castagno, T. Ebrahimi, et M. Kunt. Video segmentation based on multiple features forinteractive multimedia applications.IEEE Transactions on Circuits and Systems for VideoTechnology, 8(5):562–571, 1998.

[12] C. Cedras et M. Shah. Motion-based recognition, a survey.Image and Vision Computing,13(2):129–154, 1995.

[13] S. Chang, W. Chen, H. Horace, H. Sundaram, et D. Zhong. A fully automated content-based video search engine supporting spatio-temporal queries.IEEE Transactions on Cir-cuits and Systems for Video Technology, 8(5):616–627, 1998.

[14] Y. Cheng. Mean Shift, mode seeking, and clustering.IEEE Transactions on PatternAnalysis and Machine Intelligence, 17(8):790–799, 1995.

131

Page 132: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

132 BIBLIOGRAPHIE

[15] D. Comaniciu et P. Meer. Mean-Shift: A robust approach toward feature space analysis.IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(5):603–619, 2002.

[16] J. Costeira et T. Kanade. A multi-body factorization method for motion analysis. InIEEEInternational Conference on Computer Vision, pages 1071–1076, Cambridge, MA, 1995.

[17] I.J. Cox et S.L. Hingorani. An efficient implementation of Reid’s Multiple Hypothesis Tra-cking algorithm and its evaluation for the purpose of visual tracking.IEEE Transactionson Pattern Analysis and Machine Intelligence, 18(2):138–150, 1996.

[18] M. de Berg, M. van Kreveld, M. Overmars, et O. Schwarzkopf.Computational Geometry:Algorithms and Applications. Springer-Verlag, Berlin, Allemagne, 2000.

[19] A. Del Bimbo, P. Pala, et L. Tanganelli. Video retrieval based on dynamics of color flows.In International Conference on Pattern Recognition, volume 1, pages 851–854, 2000.

[20] Y. Deng et B.S. Manjunath. NeTra-V: Toward an object based video representation.IEEETransactions on Circuits and Systems for Video Technology, 8(5):616–627, 1998.

[21] Y. Deng et B.S. Manjunath. Unsupervised segmentation of color-texture regions in imagesand video.IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(8):800–810, 2001.

[22] R. Deriche. Recursively implementing the Gaussian and its derivatives. Rapport de re-cherche 1893, INRIA Sophia-Antipolis, 1993.

[23] A. Desolneux, L. Moisan, et J.-M. Morel. Gestalt theory and computer vision. Preprint2002-06, Centre de Mathématiques et de Leurs Applications, ENS Cachan, 2002.

[24] N. Dimitrova et F. Golshani. Motion recovery for video content classification.ACMTransactions on Information Systems, 13(4):408–439, 1995.

[25] R. O. Duda, P. E. Hart, et D. G. Stork.Pattern Classification. John Wiley and Sons, NewYork, 2e édition, 2000.

[26] E. Etiévent, F. Lebourgeois, et J.-M. Jolion. Assisted video sequences indexing : motionanalysis based on interest points. InInternational Conference on Image Analysis andProcessing, pages 1059–1062, Venise, Italie, 1999.

[27] O. Faugeras.Three-Dimensional Computer Vision. MIT Press, 1993.

[28] C. Fowlkes, S. Belongie, et J. Malik. Efficient spatiotemporal grouping using the Nyströmmethod. InIEEE Conference on Computer Vision and Pattern Recognition, volume 1,pages 231–238, Kauai, Hawaii, 2001.

[29] H. Gauvrit. Extraction multi-pistes : approche probabiliste et approche combinatoire.Thèse, Université de Rennes 1, 1997.

[30] C.W. Gear. Feature grouping in moving objects. InIEEE Workshop on motion of non-rigidand articulated objects, pages 214–219, Austin, TX, 1994.

[31] M. Gelgon. Segmentation spatio-temporelle et suivi dans une séquence d’images : ap-plication à la structuration et à l’indexation de vidéo. Thèse de doctorat, Université deRennes 1, 1998.

[32] M. Gelgon et P. Bouthemy. A region-level motion-based graph representation and labelingfor tracking a spatial image partition.Pattern Recognition, 33(4):725–740, 2000.

[33] S. Gepshtein et M. Kubovy. The emergence of visual objects in space-time.Proceedingsof the National Academy of Sciences, USA, 97(14):8186–8191, 2000.

[34] C. Gomila. Mise en correspondance de partitions en vue du suivi d’objets. Thèse dedoctorat, École Nationale Supérieure des Mines de Paris, 2001.

Page 133: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

BIBLIOGRAPHIE 133

[35] H. Greenspan, J. Goldberger, et A. Mayer. A probabilistic framework for spatio-temporalvideo representation and indexing. InEuropean Conference on Computer Vision, vo-lume 4, pages 461–475, Copenhague, Danemark, 2002. LNCS 2353, Springer-Verlag.

[36] C. Harris et M. Stephens. A combined corner and edge detector. InAlvey Vision Confe-rence, pages 147–151, 1988.

[37] N. Ichimura. Motion segmentation based on factorization method and discriminant cri-terion. In IEEE International Conference on Computer Vision, pages 600–605, Kerkyra,Corfu, Grèce, 1999.

[38] M. Irani, B. Rousso, et S. Peleg. Computing occluding and transparent motions.Interna-tional Journal of Computer Vision, 12(1):5–16, 1994.

[39] D. Jacobs. Linear fitting with missing data: applications to structure-from-motion andto characterizing intensity images. InIEEE Conference on Computer Vision and PatternRecognition, pages 206–212, San Juan, Puerto Rico, 1997.

[40] A. K. Jain. Fundamentals of Digital Image Processing. Prentice Hall, Englewood Cliffs,NJ, USA, 1989.

[41] A. Jepson et M. Black. Mixture models for optical flow computation. In I. Cox, P. Hansen,et B. Julesz, editors,Proceedings of the DIMACS Worshop on Partitioning Data Sets: WithApplications to Psychology, Vision and Target Tracking, pages 271–286, Providence, RI,1993. AMS Pub.

[42] N. Jojic et B. Frey. Learning flexible sprites in video layers. InIEEE Conference on Com-puter Vision and Pattern Recognition, volume 1, pages 199–206, Kauai, Hawaii, 2001.

[43] K. Kanatani. Motion segmentation by subspace separation: Model selection and reliabilityevaluation.International Journal of Image and Graphics, 2(2):179–197, 2002.

[44] R. Kauth, A. Pentland, et G. Thomas. Blob: an unsupervised clustering approach to spatialpreprocessing of MSS imagery. In11th International Symposium on Remote Sensing ofthe Environment, Ann Harbor, MI, 1977.

[45] Q. Ke et T. Kanade. A subspace approach to layer extraction. InIEEE Conference onComputer Vision and Pattern Recognition, pages 255–262, Kauai, Hawaii, 2001.

[46] J. J. Koenderink et A. van Doorn. The structure of locally orderless images.InternationalJournal of Computer Vision, 31(2/3):159–168, 1999.

[47] Y. Leung, J.-S. Zhang, et Xu Z.-B. Clustering by scale-space filtering.IEEE Transactionson Pattern Analysis and Machine Intelligence, 22(12):1396–1410, 2000.

[48] T. Lindeberg. Scale-Space Theory in Computer Vision. Kluwer Academic Publishers,Pays-Bas, 1994.

[49] T. Lindeberg. Edge detection and ridge detection with automatic scale selection.Interna-tional Journal of Computer Vision, 30(2):77–116, 1998.

[50] T. Lindeberg. Feature detection with automatic scale selection.International Journal ofComputer Vision, 30(2):79–116, 1998.

[51] B. D. Lucas et T. Kanade. An iterative image registration technique with an application tostereo vision (ijcai). InProceedings of the 7th International Joint Conference on ArtificialIntelligence (IJCAI ’81), pages 674–679, 1981.

[52] D. Marr. Vision. W. H. Freeman and Co., New York, 1982.

Page 134: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

134 BIBLIOGRAPHIE

[53] R. Megret et J-M. Jolion. Suivi de blobs de niveaux de gris pour la représentation ducontenu dynamique d’une vidéo. In13ème Congrès Francophone AFRIF-AFIA de Re-connaissance des Formes et Intelligence Artificielle, volume 2, pages 397–406, Angers,2002.

[54] F. Moscheni, S. Bhattacharjee, et M. Kunt. Spatiotemporal segmentation based on regionmerging. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(9):897–915, 1998.

[55] E. Mémin et P. Pérez. Hierarchical estimation and segmentation of dense motion fields.International Journal of Computer Vision, 46(2):129–155, 2002.

[56] J.-M. Odobez et P. Bouthemy. Robust multiresolution estimation of parametric motion mo-dels.Journal of Visual Communication and Image Representation, 6(4):348–365, 1995.

[57] J.-M. Odobez et P. Bouthemy. Direct incremental model-based image motion segmenta-tion analysis for video analysis.Signal Processing, 66:143–155, 1998.

[58] I. Patras, E. A. Hendriks, et R. L. Lagendijk. Video segmentation by MAP labeling ofwatershed segments.IEEE Transactions on Pattern Analysis and Machine Intelligence,23(3):326–332, 2001.

[59] P. Perona et W. Freeman. A factorization approach to grouping. InEuropean Conferenceon Computer Vision, volume 1, pages 655–670, Freiburg, Allemagne, 1998. LNCS 1406,Springer-Verlag.

[60] E. Sahouria et A. Zakhor. Motion indexing of video. InInternational Conference onImage Processing, volume 2, pages 526–529, Santa Barbara, CA, 1997.

[61] S. Sarkar et K. L. Boyer. Perceptual organization in computer vision: A review and a pro-posal for a classificatory structure.IEEE Transactions on Systems, Man, and Cybernetics,23(2):382–399, 1993.

[62] S. Sarkar, D. Majchrzak, et K. Korimilli. Perceptual organization-based computationalmodel for robust segmentation of moving objects.Computer Vision and Image Unders-tanding, 86(3):141–170, 2002.

[63] H. S. Sawhney et S. Ayer. Compact representations of videos through dominant and mul-tiple motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,18(8):814–830, 1996.

[64] M. Schmitt et J. Mattioli.Morphologie Mathématique. Masson, Paris, 1993.

[65] J. Shi et J. Malik. Motion segmentation and tracking using normalized cuts. InIEEEInternational Conference on Computer Vision, pages 1151–1160, Bombay, Inde, 1998.

[66] J. Shi et J. Malik. Normalized cuts and image segmentation.IEEE Transactions on PatternAnalysis and Machine Intelligence, 22(8):888–905, 2000.

[67] J. Shi et C. Tomasi. Good features to track. InIEEE Conference on Computer Vision andPattern Recognition, pages 593–600, 1994.

[68] H.-Y. Shum, K. Ikeuchi, et R. Reddy. Principal component analysis with missing data andits application to polyhedral object modeling.IEEE Transactions on Pattern Analysis andMachine Intelligence, 17(8):854–867, 1995.

[69] S. M. Smith et J. M. Brady. ASSET-2: Real-time motion segmentation and object tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(8):814–820, 1995.

[70] H. Tao, H. S. Sawhney, et R. Kumar. Object tracking with Bayesian estimation of dynamiclayer representations.IEEE Transactions on Pattern Analysis and Machine Intelligence,24(1):75–89, 2002.

Page 135: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

BIBLIOGRAPHIE 135

[71] C. Tomasi et T. Kanade. Shape and motion for image streams under orthography: a facto-rization method.International Journal of Computer Vision, 9(2):137–154, 1992.

[72] P. H. S. Torr et A. Zisserman. Concerning Bayesian motion segmentation, model ave-raging, matching and the trifocal tensor. InEuropean Conference on Computer Vision,volume 1, pages 511–527, Freiburg, Allemagne, 1998. LNCS 1406, Springer-Verlag.

[73] J. Verestoy et D. Chetverikov. Experimental comparative evaluation of feature point tra-cking algorithms. InEvaluation and Validation of Computer Vision Algorithms, KluwerSeries in Computational Imaging and Vision, pages 183–194, 2000.

[74] D. Wang. Unsupervised video segmentation based on watersheds and temporal tracking.IEEE Transactions on Circuits and Systems for Video Technology, 8(5):539–546, 1998.

[75] J. Y. A. Wang et E. H. Adelson. Representing moving images with layers.IEEE Transac-tions on Image Processing, 3(5):625–638, 1994.

[76] Y. Weiss. Smoothness in layers: motion segmentation using nonparametric mixture esti-mation. InIEEE Conference on Computer Vision and Pattern Recognition, pages 520–526,San Juan, Puerto Rico, 1997.

[77] Y. Weiss. Segmentation using eigenvectors: a unifying view. InIEEE International Confe-rence on Computer Vision, pages 975–982, Kerkyra, Corfu, Grèce, 1999.

[78] A. P. Witkin. Image Understanding, chapitre Scale-Space Filtering: A New Approach toMultiscale Description, pages 79–95. Ablex, Norwood, NJ, 1984.

[79] Y.-F. Wong. Clustering by melting.Neural Computation, 5(1):89–104, 1993.

[80] C. Wren, A. Azarbayejani, T. Darrell, et A. Pentland. Pfinder: Real-time tracking of the hu-man body.IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7):780–785, 1997.

[81] Y. Wu, Z. Zhang, T. S. Huang, et J. Y. Lin. Multibody grouping via orthogonal subspacedecomposition. InIEEE Conference on Computer Vision and Pattern Recognition, vo-lume 2, pages 252–257, Kauai, Hawaii, 2001.

[82] M.H. Yang, D. Kriegman, et N. Ahuja. Detecting faces in images: A survey.IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 24(1):34–58, 2002.

Page 136: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

136 BIBLIOGRAPHIE

Page 137: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

Publications personnelles

[1] R. Megret et J.-M. Jolion, “Tracking scale-space blobs for video description,”IEEE Multi-media, vol. 9, no. 2, pp. 34–43, 2002.

[2] R. Megret et J.-M. Jolion, “Suivi de blobs de niveaux de gris pour la représentation ducontenu dynamique d’une vidéo,” in13ème Congrès Francophone AFRIF-AFIA de Recon-naissance des Formes et Intelligence Artificielle, RFIA’02, vol. 2, pp. 397–406, Angers, jan.2002.

[3] R. Megret et J.-M. Jolion, “Scale-space blobs tracking for video dynamic content represen-tation,” in International Workshop on Content-Based Multimedia Indexing (CBMI), pp. 31-38, Brescia, Italie, sept. 2001.

[4] R. Megret et J.-M. Jolion, “Le suivi de blobs comme base pour la caractérisation du mou-vement dans des séquences audiovisuelles,” in7èmes Journées d’Études et d’ÉchangesCompression et Représentation des Signaux Audiovisuels, CORESA, Dijon, nov. 2001.

[5] R. Megret et J.-M. Jolion, “Description pré-attentive et structuration du mouvement pourl’indexation de vidéos,” inActes des journées francophones des jeunes chercheurs en ana-lyse d’images et perception visuelle, ORASIS’2001, pp. 17-26, Cahors, juin 2001.

[6] D. DeMenthon et R. Megret. Spatio-temporal segmentation of video by hierarchical meanshift analysis. Technical Report: LAMP-TR-090/CAR-TR-978/CS-TR-4388/UMIACS-TR-2002-68, University of Maryland, College Park, 2002.

[7] R. Megret et D. DeMenthon. A survey of spatio-temporal grouping techniques. TechnicalReport: LAMP-TR-094/CS-TR-4403/UMIACS-TR-2002-83/CAR-TR-979, University ofMaryland, College Park, 2002.

137

Page 138: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues
Page 139: Structuration spatio-temporelle de séquences vidéotheses.insa-lyon.fr/publication/2003isal0089/these.pdfla séquence, tant spatialement que temporellement. Plusieurs points de vues

FOLIO ADMINISTRATIF

THESE SOUTENUE DEVANT L'INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON

NOM : MEGRET DATE de SOUTENANCE : 17 décembre 2003

Prénoms : Rémi

TITRE : STRUCTURATION SPATIO-TEMPORELLE DE SÉQUENCES VIDÉO

NATURE : Doctorat Numéro d'ordre : 03 ISAL 0089

Ecole doctorale : EDIIS

Spécialité :Informatique

Cote B.I.U. - Lyon : T 50/210/19 / et bis CLASSE :

RESUME :

Ce travail aborde le problème de l'extraction d'une structure spatio-temporelle au sein de séquences vidéos, avec comme objectif unereprésentation qui prenne en compte l'ensemble de la séquence, tant spatialement que temporellement. Plusieurs points de vues sontproposés: le point de vue de l'estimation de trajectoires, le point de vue de la segmentation jointe en espace et en temps, et uneformalisation plus générale autour du concept de regroupement récursif.Le point commun des solutions que nous introduisons est de considérer des représentations à plusieurs niveaux, par l'utilisation destructures hiérarchiques. Ces structures sont définies à partir de primitives regroupant les pixels de façon compacte: il s'agira de primitivessurfaciques au sein d'une image, et de volumes au sein du bloc spatio-temporel que constitue la vidéo.

Le premier point de vue sépare les dimensions spatiales et le temps. Des primitives sont extraites des images et mises en correspondancetemporelle pour former des trajectoires.Nous proposons pour cela l'utilisation de blobs, c'est à dire des régions de forme compacte présentant un contraste avec leur voisinage.Nous utilisons la définition de la théorie de l'espace-échelle, qui présente l'avantage de tirer parti de l'information présente à plusieursniveaux de détail dans une image à niveaux de gris. Nous proposons une extension de celle-ci à la couleur, sur la base des histogrammes de couleur locaux, que nous relions avec d'autresméthodes non multi-échelle.Les blobs suivis forment des trajectoires, que nous segmentons par le mouvement, à l'aide d'une nouvelle méthode, permettant de prendreen compte des trajectoires de longueurs variées.

Le second point de vue considère les dimensions spatiales et temporelle de façon jointe.Nous proposons une méthode d'extraction de tubes de couleur spatio-temporels dans des blobs d'une vingtaine d'images. Elle est basée surune classification des pixels de la séquence dans un espace de caractéristiques. L'avantage d'extraire directement des structures spatio-temporelles du bloc vidéo est de pouvoir les comparer, moyennant un décalage temporel, ce qui fournit une mesure de la stabilitétemporelle de chaque tube.

Enfin, nous proposons un modèle général permettant de caractériser les méthodes de structuration du bloc spatio-temporel, sur la base dedeux concepts: la définition d'une structure spatio-temporelle comme un regroupement récursif des pixels de la séquence, et ladécomposition de toute relation spatio-temporelle en une relation synchrone et une projection temporelle.

MOTS-CLES :

analyse d'images, analyse de vidéos, structuration spatio-temporelle, analyse multi-échelle, espace-échelle, segmentation couleur,segmentation par le mouvement, suivi.

Laboratoire de recherche : LIRIS, INSA de Lyon

Directeur de thèse: Jean-Michel JOLION

Président de jury : Jim CROWLEY

Composition du jury : Patrick Bouthemy (IRISA, Rennes)Bernard Merialdo (EURECOM, Sophia-Antipolis)Jim Crowley (INPG, Grenoble)Daniel DeMenthon (Univ. du Maryland, Etats-Unis)Jean-Michel Jolion (INSA de Lyon)Denis Pellerin (INPG, Grenoble)