Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

Avignon, 14 novembre 2006 http://biobimo.eurecom.fr

Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

Etat de l’art - Multimodal Audio-vidéo

Participants : Eurécom, LIA


Introduction

Combiner plusieurs modalités pour améliorer les performances;


Introduction

Voix/vidéo : modalités peu intrusives et facilement disponibles;

Bimodalité audio-vidéo :

– Fusion de deux systèmes → peu robuste

– Extraction d’informations à partir des données de manière conjointe pour n’effectuer qu’un unique traitement


Fusion : généralités

Fusion à 3 niveaux différents :– Fusion des paramètres d'entrée (ex. paramètres

acoustiques et dimension de la bouche)

– Fusion des espaces de représentation (ex. fusion d'un HMM audio et un HMM vidéo)

– Fusion des sorties:• Niveau abstrait : liste de labels• Niveau des rangs : classification des labels par ordre de

confiance• Niveau des scores : chaque modalité traitée de manière

séparée jusqu’à obtention d’un score audio et un score vidéo


Fusion : GMM

Démonstrateur BioLogin :

Système d’authentification biométrique bimodale

Vérification de l’identité d’un client se présentant face à une caméra et prononcant une phrase

Fusion des scores audio et vidéo

Chaque module est basé sur des GMM (Gaussian Mixture Models)


Fusion : HMM

Combinaison de 2 HMM (audio et vidéo) pour obtenir un HMM à deux dimensions.

– Apprentissage séparé des deux HMM

– Combinaison des HMM par un processus prenant en compte les différentes natures des données (ex. produits des probabilités de transition des états)


Fusion : HMM avec synchronisation temporelle

Authentification bimodale basée sur les modèles de Markov cachés asynchrones :

– Flux audio : phrase prononcée par une personne– Flux vidéo : visage de cette personne prononçant la

phrase – Synchronisation des flux à partir des corrélations

temporelles entre l’audio et la vidéo

→ Gain en robustesse dans un environnement bruité (Test sur XM2VTS)


Classifieurs(Brunelli, Falavia)

Quantification vectorielle sur les MFCC Détection du visage à partir de la vidéo puis

normalisation Calcul d’une distance (norme L1) entre l’image de

référence et les images extraites Application de 2 classifieurs audio et 3 vidéo Calcul d’une moyenne géométrique de scores

pondérées (poids : fonction de la distribution des scores).

Avantage : utilisation de plusieurs classifieurs permet de rejeter des données qui ne peuvent être classées avec une confiance suffisante.


Classifieurs(Broun et Zhang)

Extraction des données audio sous la forme de LPC (Linear Predictive Coefficients)

Segmentation des données vidéo basée sur les couleurs, les paramètres géométriques des lèvres et de la bouche;

Classifieurs polynomiaux sur données audio et vidéo

Fusion au niveau des classes


Corrélation audio-vidéo

Décomposition du problème en deux étapes pour conserver de bonnes performances :

– Détection de « playback/liveness » : corrélations entre la parole et les mouvements de lèvres

– Reconnaissance du locuteur


Corrélation audio-vidéo

Extraction d’informations issues de 2 flux séparés → risque de redondance

Intéressant d’évaluer cette redondance pour exploiter les relations entre les différents jeux de données

Mesure des corrélations entre le tractus vocal, la position de plusieurs points au niveau de la bouche et la parole


Analyse statistique de données

CANCOR (Canonical Correlation Cancor) : analyse canonique des corrélations

• Maximisation de la corrélation entre deux jeux de données

COIA ( Coinertia Analysis) :• Méthode introduite pour résoudre des problèmes

statistiques en écologie.• Tient compte des relations inter intra-classes pour

les différents jeux de données


COIA (Goecke)

– Détection du visage puis du contour des lèvres

– Extraction des paramètres sur l’ouverture de la bouche et sur les dimensions des lèvres

– Extraction des coefficients MFCC et leurs dérivées du flux audio

– Détermination du poids à accorder à chacune des données par une COIA

– Reconnaissance à l’aide de HMM


Test de « Liveness » (Chetty et Wagner)

Extraction des coefficients MFCC du flux audio

Données vidéo issues d’une PCA pratiquée sur une ROI autour des lèvres

Construction d’un modèle GMM à partir de la concaténation des vecteurs audio et vidéo

Test :– Comparaison du modèle du locuteur avec celui appris à l’entraînement

– Comparaison à partir d’images fixes de la vidéo utilisées à la place de la séquence de test

– Calcul d’un seuil du rapport bayésien pour déterminer si attaque


Test de « Liveness »(Eveno, Besacier)

Données extraites des flux audio et vidéo de nature différente donc traitées de manière différente

Utilisation de la COIA

Corrélation entre l’audio et la vidéo très variable en fonction des locuteurs mais aussi des phonèmes prononcés par un même locuteur

Score de détection de « playback », basé sur l’évolution du coefficient de corrélation en décalant les signaux audio et vidéo

Déterminer si attaque en fonction du décalage observé sur la courbe du cœfficient de COIA


Lipreading

Système de reconnaissance audio-vidéo de parole et non du locuteur– Calcul des MFCC à partir du flux audio– Vecteur vidéo pour chaque image :

• Coefficients de la FT de la ROI des lèvres pour certaines bandes de fréquence

• Coefficients issus d’une analyse linéaire discriminante de l’image sous-échantillonnée

– Modélisation des phonèmes dans les domaines audio parallèlement aux visèmes vidéo

– Modélisation des combinaisons multiphones– Reconnaissance par DTW

Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

Documents

Transcript of Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage