Reconnaissance du locuteur Objectif Applicationscappe/fr/Enseignement/verif.pdf · 2018. 12....

15
ENST, D´ ept. TSI / LTCI (CNRS URA 820) Reconnaissance du locuteur Objectif Enregistrement de parole Extraction d’informations concernant le locuteur (identit´ e, distinction homme/femme, langue parl´ ee) Technique biom ´ etrique: Couplage possible avec d’autres techniques d’identification (reconnaissance visuelle) Applications Identification Reconnaˆ ıtre un locuteur parmis locuteurs potentiels (connus) erification ecision d’acception/rejet : locuteur autoris ´ e ou imposteur mod´ elisation de locuteurs inconnus Reconnaissance du locuteur — 1

Transcript of Reconnaissance du locuteur Objectif Applicationscappe/fr/Enseignement/verif.pdf · 2018. 12....

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Reconnaissance du locuteur

    ObjectifEnregistrement de parole

    �Extraction d’informations concernant le locuteur (identité, distinction

    homme/femme, langue parlée)

    Technique biom étrique : Couplage possible avec d’autres techniques d’identification (reconnaissance

    visuelle)

    ApplicationsIdentification

    Reconnaı̂tre un locuteur parmis�

    locuteurs potentiels (connus) Vérification

    Décision d’acception/rejet : locuteur autorisé ou imposteur�modélisation de locuteurs inconnus

    Reconnaissance du locuteur — 1

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Reconnaissance par un auditeur humain

    Tâche difficile même pour un auditeur humain !�Taux d’erreur (vérification) � 10%

    Facteur s d’influence

    - Durée des enregistrements

    - Familiarité avec les locuteurs, ...�Bonne robustesse vis à vis du bruit, de la mauvaise qualité de l’enregistrement.

    Imitation de la voix ?

    Modification de paramètres de “haut niveau” : rythme d’élocution, accent régional, style linguistique, tics de

    langage, pathologie vocale...

    Possibilit é de travestissement de la voix

    En général détectable par l’auditeur, diminue fortement les possibilités de reconnaissance

    Reconnaissance du locuteur — 2

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Rappels sur la production de la parole

    In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�

    Marcel Dekker, 1991

    Reconnaissance du locuteur — 3

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Comple xit é de la tâche de reconnaissance

    Facteur s négatifs

    � Variabilité intra-locuteur� Influence des conditions d’enregistrement� Dérive temporelle� Eventuelles modifications intentionnelles

    Reconnaissance du locuteur — 4

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Modes de fonctionnement

    Texte libre

    Le moins contraignant (le moins performant !)

    Texte fix é

    Contraignant pour l’utilisateur, possibilité de couplage avec la reconnaissance d’un mot de passe

    Texte sug géré (par le syst ème)

    Annule le risque de fraude par enregistrement

    Reconnaissance du locuteur — 5

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Méthodes (en mode dépendant du texte)

    Identiques au cas de la reconnaissance de la parole

    1. Mesures de vecteurs paramètres à intervalles réguliers

    2. Modélisation (par locuteur) à l’aide de modèle de Markov cachés

    3. Décision basée sur la vraisemblance des données de test

    Reconnaissance du locuteur — 6

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Identification du locuteur

    In Proc. ESCA Workshop ASRIV, 1994

    Reconnaissance du locuteur — 7

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Vérification de locuteur

    In Proc. ESCA Workshop ASRIV, 1994

    Reconnaissance du locuteur — 8

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Seuil de décision pour la vérification

    Strat égies de normalisation du score de vraisemb lance

    Problème : Imposteurs inconnus

    1. “Modèle du monde”

    �������� ��������������� �������� � ���!�#"$�

    2. “Cohort normalization”

    �������� ����� ��� � ��� %�&

    ')( ��*�+,�-�� � �.� �0/ ' �

    3. Approches discriminantes

    �������� ��������������� �������� � ���!�21�3�4�

    Reconnaissance du locuteur — 9

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Techniques en mode ind épendant du texte

    Problème plus ouver t

    Inefficacité des contraintes temporelles liées à la matrice de transition des HMMs

    Méthodes utilis és

    � Modèle paramétrique: modèle de mélange de gaussiennes� Classificateur non-paramétrique: réseaux de neurones� 5 autres méthodes classiques de reconnaissance des formes

    Reconnaissance du locuteur — 10

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Modèle de mélang e de gaussiennes

    �Modèle de données échangeables�Représentation paramétrique de la distribution de probabilité :

    �-768�:9 ;� ( �=<

    � � >6?�A@ ��BDC ���

    −1 −0.5 0 0.5 1 1.5−1

    −0.5

    0

    0.5laroche (MFCC, 15 s)

    c(1)

    c(2)

    −1 −0.5 0 0.5 1 1.5−1

    −0.5

    0

    0.5moulines (MFCC, 15 s)

    c(1)

    c(2)

    −1 −0.5 0 0.5 1 1.5−1

    −0.5

    0

    0.5selim (MFCC, 15 s)

    c(1)

    c(2)

    −1 −0.5 0 0.5 1 1.5−1

    −0.5

    0

    0.5terosier (MFCC, 15 s)

    c(1)

    c(2)

    Représentation dans le plan EGF�H�IKJ7ELFNMGI (MFCC), 15 s de paroleReconnaissance du locuteur — 11

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Modèle de mélang e de gaussiennes

    −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    laroche (2 MIX)

    c(2) −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    moulines (2 MIX)

    c(2)

    −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    selim (2 MIX)

    c(2) −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    terosier (2 MIX)

    c(2)

    Modèle à 2 composantes

    Reconnaissance du locuteur — 12

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Modèle de mélang e de gaussiennes (cont.)

    −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    laroche (8 MIX)

    c(2) −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    moulines (8 MIX)

    c(2)

    −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    selim (8 MIX)

    c(2) −10

    1

    −1−0.5

    00.5

    −4

    −2

    0

    2

    c(1)

    terosier (8 MIX)

    c(2)

    Modèle à 8 composantes

    Reconnaissance du locuteur — 13

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Performances actuelles

    Mode dépendant du texte

    Suffisantes pour certaines applications : � 5% d’erreurs (vérification téléphonique)�Utilisation combinée avec la reconnaissance d’un mot de passe

    (ex. carte PhonCard de SPRINT)

    Problèmes : dérive temporelle, “sheeps and goats”

    Mode ind épendant du texte

    Sensibilité extrême aux conditions d’enregistrement (distorsions, présence de bruit)�Pas d’application effective à ce jour

    Reconnaissance du locuteur — 14

  • ENST, Dépt. TSI / LTCI (CNRS URA 820)

    Performances en mode ind épendant du texte

    In Proc. ESCA Workshop ASRIV, 1994

    Figure 1: Performances d’identification en fonction du nombre de locuteurs

    Reconnaissance du locuteur — 15