Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage
description
Transcript of Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage
Etat de l’art - Multimodal Audio-vidéo
Participants : Eurécom, LIA
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Introduction
Combiner plusieurs modalités pour améliorer les performances;
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Introduction
Voix/vidéo : modalités peu intrusives et facilement disponibles;
Bimodalité audio-vidéo :
– Fusion de deux systèmes → peu robuste
– Extraction d’informations à partir des données de manière conjointe pour n’effectuer qu’un unique traitement
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Fusion : généralités
Fusion à 3 niveaux différents :– Fusion des paramètres d'entrée (ex. paramètres
acoustiques et dimension de la bouche)
– Fusion des espaces de représentation (ex. fusion d'un HMM audio et un HMM vidéo)
– Fusion des sorties:• Niveau abstrait : liste de labels• Niveau des rangs : classification des labels par ordre de
confiance• Niveau des scores : chaque modalité traitée de manière
séparée jusqu’à obtention d’un score audio et un score vidéo
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Fusion : GMM
Démonstrateur BioLogin :
Système d’authentification biométrique bimodale
Vérification de l’identité d’un client se présentant face à une caméra et prononcant une phrase
Fusion des scores audio et vidéo
Chaque module est basé sur des GMM (Gaussian Mixture Models)
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Fusion : HMM
Combinaison de 2 HMM (audio et vidéo) pour obtenir un HMM à deux dimensions.
– Apprentissage séparé des deux HMM
– Combinaison des HMM par un processus prenant en compte les différentes natures des données (ex. produits des probabilités de transition des états)
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Fusion : HMM avec synchronisation temporelle
Authentification bimodale basée sur les modèles de Markov cachés asynchrones :
– Flux audio : phrase prononcée par une personne– Flux vidéo : visage de cette personne prononçant la
phrase – Synchronisation des flux à partir des corrélations
temporelles entre l’audio et la vidéo
→ Gain en robustesse dans un environnement bruité (Test sur XM2VTS)
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Classifieurs(Brunelli, Falavia)
Quantification vectorielle sur les MFCC Détection du visage à partir de la vidéo puis
normalisation Calcul d’une distance (norme L1) entre l’image de
référence et les images extraites Application de 2 classifieurs audio et 3 vidéo Calcul d’une moyenne géométrique de scores
pondérées (poids : fonction de la distribution des scores).
Avantage : utilisation de plusieurs classifieurs permet de rejeter des données qui ne peuvent être classées avec une confiance suffisante.
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Classifieurs(Broun et Zhang)
Extraction des données audio sous la forme de LPC (Linear Predictive Coefficients)
Segmentation des données vidéo basée sur les couleurs, les paramètres géométriques des lèvres et de la bouche;
Classifieurs polynomiaux sur données audio et vidéo
Fusion au niveau des classes
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Corrélation audio-vidéo
Décomposition du problème en deux étapes pour conserver de bonnes performances :
– Détection de « playback/liveness » : corrélations entre la parole et les mouvements de lèvres
– Reconnaissance du locuteur
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Corrélation audio-vidéo
Extraction d’informations issues de 2 flux séparés → risque de redondance
Intéressant d’évaluer cette redondance pour exploiter les relations entre les différents jeux de données
Mesure des corrélations entre le tractus vocal, la position de plusieurs points au niveau de la bouche et la parole
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Analyse statistique de données
CANCOR (Canonical Correlation Cancor) : analyse canonique des corrélations
• Maximisation de la corrélation entre deux jeux de données
COIA ( Coinertia Analysis) :• Méthode introduite pour résoudre des problèmes
statistiques en écologie.• Tient compte des relations inter intra-classes pour
les différents jeux de données
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
COIA (Goecke)
– Détection du visage puis du contour des lèvres
– Extraction des paramètres sur l’ouverture de la bouche et sur les dimensions des lèvres
– Extraction des coefficients MFCC et leurs dérivées du flux audio
– Détermination du poids à accorder à chacune des données par une COIA
– Reconnaissance à l’aide de HMM
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Test de « Liveness » (Chetty et Wagner)
Extraction des coefficients MFCC du flux audio
Données vidéo issues d’une PCA pratiquée sur une ROI autour des lèvres
Construction d’un modèle GMM à partir de la concaténation des vecteurs audio et vidéo
Test :– Comparaison du modèle du locuteur avec celui appris à l’entraînement
– Comparaison à partir d’images fixes de la vidéo utilisées à la place de la séquence de test
– Calcul d’un seuil du rapport bayésien pour déterminer si attaque
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Test de « Liveness »(Eveno, Besacier)
Données extraites des flux audio et vidéo de nature différente donc traitées de manière différente
Utilisation de la COIA
Corrélation entre l’audio et la vidéo très variable en fonction des locuteurs mais aussi des phonèmes prononcés par un même locuteur
Score de détection de « playback », basé sur l’évolution du coefficient de corrélation en décalant les signaux audio et vidéo
Déterminer si attaque en fonction du décalage observé sur la courbe du cœfficient de COIA
Avignon, 14 novembre 2006 http://biobimo.eurecom.fr
Lipreading
Système de reconnaissance audio-vidéo de parole et non du locuteur– Calcul des MFCC à partir du flux audio– Vecteur vidéo pour chaque image :
• Coefficients de la FT de la ROI des lèvres pour certaines bandes de fréquence
• Coefficients issus d’une analyse linéaire discriminante de l’image sous-échantillonnée
– Modélisation des phonèmes dans les domaines audio parallèlement aux visèmes vidéo
– Modélisation des combinaisons multiphones– Reconnaissance par DTW