ENST, Dept. TSI / LTCI (CNRS URA 820)
Reconnaissance de la parole
Techniques et applications
Olivier Cappe
ENST
Departement Signal - Images / LTCI (CNRS URA 820)
46 Rue Barrault
75634 Paris Cedex 13
cappe@@tsi.enst.fr
Reconnaissance de la parole — 1
ENST, Dept. TSI / LTCI (CNRS URA 820)
Programme
1. Complexite de la tache de reconnaissance
2. Calcul des parametres acoustiques
3. Programmation dynamique
4. Modeles de Markov caches
5. Reconnaissance de mots isoles
6. Grands vocabulaires et parole continue
7. Applications
Reconnaissance de la parole — 2
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Objectifs
Reconnaissance de la parole
Niveau acoustique Signal�(Niveau phonetique) Suite de phonemes / syllabes / ������Niveau lexical Mot, suite de mots,
hypotheses de mots
Compr ehension de la parole (dialogue)�Niveau semantique Concepts (Intentions)
Reconnaissance de la parole — 3
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Obstac les
� Pas d’acces a la semantique (connaissances syntaxiques tout au plus)� Variabilite
– interlocuteur
– intralocuteur�particulierement sensible au niveau temporel� Coarticulation (y compris aux frontieres de mots)� Influence des conditions d’enregistrement (telephone)
Reconnaissance de la parole — 4
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Variabilit e interlocuteur
In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�
Marcel Dekker, 1991
Figure 1: La phrase “ We were away a year ago ” prononcee par trois locuteurs
Reconnaissance de la parole — 5
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Variabilit e intralocuteur
In Advances in speech signal processing, S. Furui & M. Sondhi editors, c�
Marcel Dekker, 1991
Figure 2: La phrase “ We were away a year ago ” prononcee trois fois par le meme locuteur
Reconnaissance de la parole — 6
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Coar ticulation
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 3: Spectrogrammes des sequences /a-v-a/ et /a-z-a/
Reconnaissance de la parole — 7
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Influence de l’envir onnement
Hz
s
enregistrement téléphonique
0 0.1 0.2 0.3 0.4 0.5 0.60
1000
2000
3000
4000
Hz
enregistrement direct
0 0.1 0.2 0.3 0.4 0.5 0.60
1000
2000
3000
4000
Figure 4: Spectrogrammes du mot “ safari ” enregistre en direct et par telephone
Reconnaissance de la parole — 8
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Historique des techniques
Depuis le debut Methodes basees sur les
des annees 70 connaissances
(knowledge-based,
decodage acoustico-phonetique)
A partir du milieu Reconnaissance de mots
des annees 70 isoles, utilisation de la
programmation dynamique
Debut des Modeles de Markov Caches (HMM)
annees 80
Depuis dix ans Parole continue, grands vocabulaires,
techniques d’adaptation
Reconnaissance de la parole — 9
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Appr oches basees sur les connaissances
Objectif
Signal de parole�
Suite de phonemes
Int erets� Vocabulaire illimite� Approche generique (multilingue)� Acquisition de connaissances (lien avec production / perception)
Principe
1. Segmenter le signal en phonemes
2. Reconnaıtre chaque phoneme
Outil de base : Etudes phenomenologiques
Reconnaissance de la parole — 10
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Caract eristiques des phon emes
L’exemple des voyelles
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 5: Spectrogrammes des sons vocaliques de l’anglais
Reconnaissance de la parole — 11
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Sons vois es - Formants
PARTIE VOISEE PARTIE NON-VOISEE
1
0 1000 2000 300060
80
100
120
dB
Hz0 1000 2000 3000
40
60
80
100
dBHz
2.a 2.bFORMANTS
Figure 6: Spectres typiques de parties voisee et non-voisee
Reconnaissance de la parole — 12
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Triangle vocalique
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 7: Representation des sons vocaliques de l’anglais en fonctions des deux premieres frequences
formantiques
Reconnaissance de la parole — 13
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Appr oches basees sur les connaissances
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 8: Schema de principe des methodes basees sur les connaissances
Reconnaissance de la parole — 14
1. Complexite de la tache de reconnaissance ENST, Dept. TSI / LTCI (CNRS URA 820)
Appr oches basees sur les connaissances
Bilan� Recherche : approche pratiquement abandonnee pour la reconnaissance� Aucune application effective� Meilleures performances de decodage phonetique (signal haute qualite) � 80 % (technique hybride
reseaux de neurones - HMM)
Reconnaissance de la parole — 15
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Reconnaissance de mots isol es
Idees nouvelles� Mots isoles (vocabulaire restreint)� Approche de type reconnaissance de formes (apprentissage)
Caract erisation des mots
Mot � trajectoire de parametres (mesures a intervalles reguliers) caracterisee de maniere statistique
Reconnaissance de la parole — 16
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Appr oche statistique
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 9: Schema de principe de la reconnaissance de mots isoles
Reconnaissance de la parole — 17
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Calcul des param etres acoustiques
h(n) h(n) h(n)
FFT FFT FFT
h(n)
FFT
Temps
Frequence
Figure 10: Analyse d’un signal de parole par transformee de Fourier a court-terme
Reconnaissance de la parole — 18
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Cepstre (cepstrum)
Cepstre (reel)
Transformee de Fourier inverse de � ������������������������������ ���! "#%$'& ( � #�) +*,�.-/���
Distance cepstrale 0 distor sion spectrale en echelle compress ee
�1���32 4���5�768 ( "#+$'& 9 � # 2 4� #;: 6 � <(>= ?@ ? A � �������������52 � ��� 4���������CB 6ED �(Parseval)
Reconnaissance de la parole — 19
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Propri etes du cepstre - Suite
Compensation des effets convolutifs
F�G3H �.-I� TF2KJ �������7L �M�!� log N TFI2OJ ���QPR�E ST�QPR��biais (additif) sur les coefficients cepstraux
Decorr elation
U 5VW�X� &�Y ����� Y � " � Z []\_^>�`� <5a;< Y <5a ( Y ����� Y <badc �Reconnaissance de la parole — 20
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Lissa ge cepstral
Decomposition de e��f����������� sur une famille orthogonale de fonctions
0 500 1000 1500 2000 2500 3000 3500 400050
55
60
65
70
75
80
85
90
95
100
Hz
dB
40
20
10
Figure 11: Effet de lissage cepstral
Reconnaissance de la parole — 21
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Lissa ge “ en echelle mel ” (MFCCs)
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 12: Reponse frequentielle du banc de filtres equivalent des parametres MFCC
Reconnaissance de la parole — 22
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Adjonction des “ deriv ees ” temporelles ( g )
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 13: Mode de calcul des parametres h et hWhReconnaissance de la parole — 23
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Parametres acoustiques
From Large vocabulary continuous speech recognition: a review, S. Young, c�
IEEE SP Magazine, 1996
Figure 14: Schema d’obtention des parametres acoustiques (de type MFCC)
Reconnaissance de la parole — 24
2. Calcul des parametres acoustiques ENST, Dept. TSI / LTCI (CNRS URA 820)
Dimension des param etres acoustiques
� Calcul des parametres toutes les 10 a 15 ms (fenetre de 30 a 40 ms)� 10-14 coefficients cepstraux en echelle mel (MFCC)� Adjonction de l’energie du signal fenetre (en log)� Adjonction des parametres h et hWh (calcul sur 5 a 9 trames)
�100 vecteurs de dimension 35 par seconde
Reconnaissance de la parole — 25
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Rappel sur la densit e gaussienne multiv ari ee
Densit e gaussienne (ou normale)
i �kjl�m� <n (b=po qsrut v 2 <( w jx2 yo z 6�{Densit e gaussienne multiv ari ee
i �}|'�m� <� (>= � "�~ 6 ������� @ &�~ 6 qsrut � 2 <( �.| 2 �3����� @ & �.| 2 �3�Q�c: dimension des vecteurs
Reconnaissance de la parole — 26
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Densit e normale en dimension 2
Ellipses d’ equidensit e
In Pattern classification and scene analysis, R. O. Duda & P. E. Hart, c�
Wiley, 1973
Reconnaissance de la parole — 27
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Surface de decision en dimension 2
Hypothese : Classes gaussiennes de meme matrice de covariance �
In Pattern classification and scene analysis, R. O. Duda & P. E. Hart, c�
Wiley, 1973�Classification selon la “ distance de Mahalanobis ”D � � �� $'& �.| � 2 � � ����� @ & �.| � 2 � � �
Reconnaissance de la parole — 28
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Reconnaissance par DTW
Principe
Chaque mot est represente par une prononciation de reference (template)
Obstac le
Decalages temporels entre les differentes prononciations d’un meme mot
Solution
Mise en correspondance des sequences de parametres par distorsion temporelle (time warping)�Obtention du “ meilleur ” alignement par programmation dynamique (DTW)
Reconnaissance de la parole — 29
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Mise en concor dance par alignement temporel
From Applications of voice processing to telecommunications, L. Rabiner, c�
Proceedings of the IEEE, 1994
Reconnaissance de la parole — 30
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Mise en concor dance par alignement temporel
From Applications of voice processing to telecommunications, L. Rabiner, c�
Proceedings of the IEEE, 1994
Reconnaissance de la parole — 31
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Alignement temporel
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Chemin d’alignement : -T��� �/�R�}-I� � � �O���.-I�m� -��Reconnaissance de la parole — 32
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Contraintes temporelles locales
Document CNET, 1994
Figure 15: Exemple d’alignement temporel, a droite les contraintes imposees au chemin d’alignement
Reconnaissance de la parole — 33
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Comparaison des diff erents chemins
Crit ere d’optimalit e d’un chemin
� �1�/� Y �O� ��� �#+$�&�� � |'�b�b� #+� Y7� �>�,� #+�X� � @ &#+$'&R 9 � � �.-¡ < �'2 � � �.-I� Y � � �.-¡ < �I2 � � �.-I� : (1)
Second terme : cout associe a la transition �Q�/�R�.-'� Y �O�u�}-I�¢� J �1�/�R�.-¡ < � Y �O�;�}-£ < �¤�Calcul recur sif
� # N & �1�/� Y �O���m� � # �1�/� Y �O���p � � |I�>�b� # N &�� Y¥� �>��� # N &��¦� 9 � � �.-¡ < �'2 � � �.-I� Y � � �.-¡ < �I2 � � �.-I� : (2)
Reconnaissance de la parole — 34
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Algorithme de programmation dynamique
Passe avant
a) Calcul recursif du cout associe au meilleur chemin§¢¨©bªO«�¬}u®+¯7u°5±�² ³ ´�µl¶ �b· ©>ªO«1¸ ¯º¹»¶ �,· ©>ªO«1¸.¼½ ¾f¿ÁÀ! § ¨©Ã¬} ® ¯7 ° ± ½ Ä�Å ® ¬ÇÆ ½ È ±EÉ ® ¬ÇÆ/±¢¯� ° ¬_Æ ½ È ±»É ° ¬ÇÆ/±kÊÇË (3)
b) Memorisation du predecesseur �.Ì3Í� �.-I� Y ÌÎÍ� �.-I�¤�Point �Q� Í� �.-'� Y � Í� �}-I�¢� associe a � Í# qui minimise (3)
Passe arri ere
Obtention du chemin optimal en partant de la fin (backtracking)�}ÏE� Y Ï»��� Y �.Ì Í� �1ÐÑ� Y Ì Í� �XÐ!�¢� Y ����� Y �.Ì Í� � ( � Y Ì Í� � ( �¤� Y � < Y < �Reconnaissance de la parole — 35
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Region de recherche du chemin optimal
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 16: Region de recherche (contraintes temporelles permettant un taux de compression/expansion local
de 2:1)
Reconnaissance de la parole — 36
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Relachement des contraintes aux extr emit es
In Fundamentals of speech recognition, L. Rabiner & B-H. Juang, c�
Prentice Hall, 1993
Figure 17: Region de recherche avec incertitude de 5 points sur le debut (9 points sur la fin) des signaux
Reconnaissance de la parole — 37
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
Utilisation de la DTW pour la reconnaissance
Apprentissa ge� Alignement de toutes les repetitions d’apprentissage� Construction de la prononciation de reference Ò � par moyennage
Reconnaissance� Alignements simultanes par rapport aux Ó hypotheses de mots� Ô \ÖÕ&¤× � ×»Ø � Í �Q� � Y �ÚÙ�ÛÜ� J mot reconnu
Reconnaissance de la parole — 38
3. Programmation dynamique ENST, Dept. TSI / LTCI (CNRS URA 820)
DTW : autres raffinements
Variantes des contraintes locales
Reglage empirique des ponderations des transitions
Elagage du reseau de recherche (pruning)
Introduction d’heuristiques pour abandonner les chemins en cours de recherche� Í# �1�/� Y � Ù Û7�ÑÝ Ô \ÖÕÙßÞ à � Í# �1�/� Y � Ù Þ,��á âRecherche des meilleur s chemins d’alignement
N best, ã GReconnaissance de la parole — 39
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Modeles de Markov caches (HMM)
Modele (de repr esentation) des trajectoires de param etres
1. Chaıne de Markov sous-jacente non observable (cachee)�Segmentation probabiliste du signal en une sequence d’etats
2. Distribution statistique des vecteurs observes conditionnee a l’etat de la chaıne�Variation des caracteristiques de la trajectoire au cours du temps
äModele non-stationnaire , par tiellement obser ve
Reconnaissance de la parole — 40
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Exemple de mod ele de Markov cache
From Large vocabulary continuous speech recognition: a review, S. Young, c�
IEEE SP Magazine, 1996
Reconnaissance de la parole — 41
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Parametre du mod ele de Markov cache
Chaıne de Markov homog ene (temps discret, a valeur s discr etes)
å �Q� � � æ � ��� & � æ &,Y ����� Y � � @ & � æ � @ & �m� å �º� � � æ � ��� � @ & � æ � @ & �m� �Çç.è;éº�ÇçMatrice de transition ê � 9 �Áë : �XÓ ì Ó �Modele d’obser vation
c �.| &¢í � ��� &¥í � � æ &¢í � �m� �� $�& c �.| � ��� � � æ � ��� �� $�& i �Çç �.| � �Parametres des Ó densites conditionnelles
i � �.|'� (cas gaussien : � � , � � )(!) Certaines r ef erences plus anciennes traitent le cas d’observations
discr etis ees (par quantification vectorielle pr ealable). Cette approche moins
performante (li ee aux contraintes d’impl ementation) est abandonn ee depuis le debut
des ann ees 90.
Reconnaissance de la parole — 42
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Estimation des param etres du mod ele
Application de l’algorithme EM (Expectation-Maximization)
1. Calcul de la quantite intermediaireî �Qï Y ï � #%� �m� ð A e�� c �.| &¢í � Y F &¥í �!ñ ïl�ß�ò| &¥í �Ññ ï � #+� B2. Remise a jour des parametresóTôeõ+ö�÷Üø�ù ú>û¢ü8ý£ú5þÿ ��� ó��dóTôeõ+ø��
Propri etes
1. La log-vraisemblance �� ü� � � ÷���� ñ óTôeõ+ø�� croıt
2. Les points d’accumulation possibles de la suite � ó ôeõ+ø � õ�� ÷ sont les points stables de la
log-vraisemblance � ó ��� ÿ �� ü� � � ÷���� ñ ó��mù ���Reconnaissance de la parole — 43
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Form ules de reestimation de l’EM
En developpant le calcul de ��� ó��dó ôeõ+ø � , on obtient (...) des formules de re-estimation explicites des
parametres du modele :
� ôeõ%ö'÷�ø�� ù ��� ÷ ! ÷ " ôeõ%ø � # �%$&���� ÷ ! ÷ ' ôeõ+ø � # � avec
()+* ' ôeõ+ø � # �mù , �%- ù #/.10 ÷2���43 ó ôeõ%ø �" ôeõ+ø �5# �%$���ù , �6- ù # � - ö�÷ ù $ .10 ÷2���43 ó ôeõ%ø �
7 ôeõ+ö'÷�ø� ù � ! ÷ ' ôeõ%ø � # � � � 5! ÷ ' ôeõ+ø � # � 8 ôeõ+ö'÷�ø� ù � ! ÷ ' ôeõ+ø � # � �5� �9 7 ôeõ%ö'÷�ø� � � � �9 7 ôeõ+ö�÷Üø� ��:� ! ÷ ' ôeõ%ø � # �
Reconnaissance de la parole — 44
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Calcul des probabilit es conditionnelles
;La solution intuitive
<>=@?�A BC=ED�<FAHGC=@?�I � � ÷2��� .1J ÷2� � ÷ �EK ù # � J ö'÷����L3 ó ôeõ%ø �F, �MJ ÷2� � ÷ �EK ù # � J ö'÷����L3 ó ôeõ%ø �<N= ��� � � ÷2�O� .1J ÷2�O� 3 óTôeõ+ø��F, �PJ ÷2�O� 3 óTôeõ+øQ�
(formule de Bayes)
est impraticable (complexite en R �)
Solution: Algorithme(s) de calcul recur sif, �%- ö�÷ ù $ .�� ÷2� ö�÷ �TS �%- ö�÷ ù $U� � ÷2� ö�÷ �ù �5V ö�÷ .+- ö�÷ ù $&� W� ! ÷ �%- ö�÷ ù $U� - ù # � � ÷2� �ù �5V ö�÷ .+- ö'÷ ù $�� W� ! ÷ , �%- ö'÷ ù $ .+- ù # �X �%- ù # � � ÷�� �
Reconnaissance de la parole — 45
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
Algorithme forwar d-backwar d
(YY) YY* Z ÷ � # � ù Z � � � ÷ �Q[ �Z ö�÷ � $&� ù Z � � � ö�÷ �]\� ! ÷ Z � # � � �^� de _ ù `a a 9 `
(forward)
(YY) YY* b � �5# � ù `b �5# � ù \� ! ÷ � �^� Z � � � ö�÷ � b ö'÷ � $�� de _ ù a 9 `
a`
(backward)
d’ou l’on tire' � # �mù Z � # � b � # �\� ! ÷ Z � $&� b � $&�" � # �%$&�mù Z � # � � �^� Z � �5� ö'÷ � b ö�÷ � $&�W� ! ÷ W� ! ÷ Z � # � � �^� Z � � � ö'÷ � b ö�÷ � $&�
Reconnaissance de la parole — 46
4. Modeles de Markov caches ENST, Dept. TSI / LTCI (CNRS URA 820)
HMM : ReconnaissancecDetermination de la sequence optimale par l’ algorithme de Viterbi (similaire au cas de la DTW)
Document CNET, 1994
Reconnaissance de la parole — 47
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Reconnaissance de mots isol es
Document CNET, 1994
Figure 18: Modelisation “ par mots ” d’un vocabulaire comprenant les chiffres de 0 a 9
Reconnaissance de la parole — 48
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Mots isol es : apprentissa ge
Mode ind ependant du locuteur
Plusieurs centaines de prononciations de chaque mot (locuteurs differents);Cout d’un vocabulaire specifique
Mode monolocuteur
Apprentissage integre a l’application ( d 5 repetitions de chaque mot)cPerformances comparables (adaptation en cours d’utilisation)
Reconnaissance de la parole — 49
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Performances de reconnaissance en laboratoire
In Automatic Speech and Speaker Recognition - Advanced Topics, ce
Kluwer, 1996
Figure 19: Performances sur parole de bonne qualite (SD: speaker dependent, SI: Speaker independent)
Reconnaissance de la parole — 50
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Performances telephoniques
Taux d’erreur
10 mots (ex. chiffres 0 a 9) f `%
100 mots (ex. nombres 00 a 99) 2.5-3 %
500 mots 5-6%
Rejet des mots hor s-vocab ulairecModeles “ poubelle ” (garbage)
Deux types d’erreurs : Rejet a tort — Acceptation a tort
Taux d’egale erreur g h %
Reconnaissance de la parole — 51
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Performances de la reconnaissance
Degradation des perf ormances dans les applications “ reelles ”
Taux d’erreur i j 9 k par rapport aux tests de “ laboratoire ”() * Parole spontanee
Caracteristiques de l’application;Test des applications “ en grandeur reelle ” avec des donnees d’exploitation
Reconnaissance de la parole — 52
5. Reconnaissance de mots isoles ENST, Dept. TSI / LTCI (CNRS URA 820)
Problemes actuels
Robustesse
Vis a vis du bruit de fond, des variations du systeme d’enregistrement
Adaptation au locuteur
Amelioration des performances par la personnalisation (apprentissage limitee)
Gestion des mots hor s-vocabulaire
Amelioration des techniques de rejet, strategies alternatives comme le word-spotting
Reconnaissance de la parole — 53
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Grands vocabulaires
Grand vocabulaire g 5 000 mots
Modele par mots
Nombre d’etatsS
nombre de mots
Modele par sub-w ord units
Triphonesc d 30 000 unites
(exemple : “ oiseau ”c #_WA_Z / WA\_Z\_O / Z_O_# )
Reconnaissance de la parole — 54
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Exemple d’unit es conte xtuelles
Document CNET, 1996
Figure 20: Modelisation d’un vocabulaire a partir d’unites contextuelles (allophones)
Reconnaissance de la parole — 55
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Grands vocabulaires : Apprentissa ge
Donn ees d’apprentissa ge en quantit e insuffisantecPartage des meme parametres par plusieurs etats du modele (tying)
µ , Σ4 43 3
m ,S
m ,S m ,S1 1
m ,S4 4
m ,S
m ,S6 6
m ,S5 5
m ,S8 8
7 7
2 2
3 3
µ , Σ µ , Σ µ , Σ1 1 2 2
Reconnaissance de la parole — 56
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Parole contin ue
Coar ticulationc
Utilisation d’unites contextuelles inter-mots
Probleme : Multiplication du nombre d’alternatives (maximal en debut de mot) !
SolutionslPruning (abandon des chemins en cours de recherche)
lUtilisation de plusieurs passes
lOrganisation arborescente du vocabulaire (arbre des prefixes)
lUtilisation precoce du modele de langage;
Necessite d’une forte puissance de calcul
Reconnaissance de la parole — 57
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Modeles de langa ge
Principe
Utiliser la statistique du sequencement des mots
Pourquoi ? Modeles syntaxiques (grammaires) inutilisables
(parole spontanee m erreurs de reconnaissancec
enonces incorrect)
N-grams
Probabilites de toutes les sequences de R mots, �@n � = �po/opoq� n � r �;Complexite en s W
En general, R ù j � k m techniques d’estimation “ lissee ”
Reconnaissance de la parole — 58
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Perple xit e: mesure de la qualit e du mod ele de langa ge
Entr opie t ù 9vuxw �� ü� �5y �6z, t ù 9 { | } ! ÷ } �~� ü � } � pour une loi a valeurs dans � `��po/opo���� �
Perple xit e � ù �sþ�� � t �l� est maximale ( � ù �
) si } ù `����
(`�� �]� �
)l� est minimale ( � ù `
) si }E� ù `
( } ù �
pour� �ù ���
);Interpretation : Nombre de choix effectifs
Estimation empirique par methode de Monte Carlo�� ù � þ�� � �t ��ù �X� Wõ ! ÷ �Py õ �%� � ÷�� WPerple xit e empirique du mod ele de
-gram
�� ù ��� Wõ !�� �5y õ .Oy õ�� ÷ �popopo y õ�� ô � � ÷Üø �%� � ÷F�sô W � � ö'÷�ø(estimation de la perplexite conditionnelle)
Reconnaissance de la parole — 59
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
La perple xit e depend de la tache consid eree
Domain ��Radiology 20
Emergency medecine 60
Journalism 105
General English 247CSLU OGI data
Table 1: Perplexity of trigram models for different domains
Reconnaissance de la parole — 60
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Grands vocabulaires - Parole contin ue
Apprentissa geTexte (modele de langage) : g 20
`����mots
Parole (unites acoustiques) : g 500 heures
Performances (parole de bonne qualit e)60 000 mots d 10% (Word Error Rate)
From Large vocabulary continuous speech recognition: a review, S. Young, ce
IEEE SP Magazine, 1996
Figure 21: HTK / ARPA CSR, nov. 1994
Reconnaissance de la parole — 61
6. Grands vocabulaires et parole continue ENST, Dept. TSI / LTCI (CNRS URA 820)
Grands vocabulaires - Parole contin ue : Problemes actuels
;Les performances sont suffisantes pour envisager des applications en mode mono-locuteur avec des
conditions d’enregistrement controlees (premier produits en parole continue disponibles depuis 1999)
Mais reste un sujet de recherche actif, notamment surl
L’efficacite des algorithmes (le cout en terme de stockage memoire et de puissance de calcul reste tres
importantc
necessite un systeme dedie)l
La robustesse (pour les applications independantes du locuteur comme la transcription de documents
sonores)
Reconnaissance de la parole — 62
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
Applications de la reconnaissance de parole;La pertinence de l’outil (et le niveau de qualite attendu) depend des autres modes d’interactions
disponibles :
+ + + [Aide aux handicapes]
+ + [Automobile] Telephonie, controles des accessoiresc Peu d’applications suffisamment robustes du fait du milieu
tr es defavorable (bruit, prise de son)
+ [Telephonie fixe] Services fournis par l’operateur (par exemple, annuaire) ou par des entreprises (serveur
audiotel : reservation, information)c En recul du fait de la generalisation du minitel puis
d’internet
+ [Telephonie mobile] Annuaire personnnel, numerotation automatiquec Int er et croissant li e au possibilit es offertes par les
syst emes haut-d ebits type UMTS (Wap)
+/- [Bornes interactives de services] Type reservation SNCF
+/- [Utilisations professionnelles de l’informatique] (atelier, medecine, etc.)
- [Interface ordinateur] Interface vocale utilisateur, traitement de texte
Reconnaissance de la parole — 63
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
Applications de la reconnaissance de parole
Deux grands types d’utilisations
Speech-to-te xt
La reconnaissance fournit la sortie ultime du systeme (dictee, interface simple comme, par ex., pour la
numerotation telephonique)
Dialogue homme-mac hine
La reconnaissance est integree dans un systeme de dialoguecla reconnaissance sert de front-end au systeme de dialoguecle resultat de la reconnaissance peut prendre d’autres formes qu’une simple transcription (hypotheses
de mots, treillis de mots, word-spotting)cpossibilites supplementaires liees a l’interaction
Reconnaissance de la parole — 64
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
Offres en reconnaissance de parole
Reconnaissance de mots isol es (ind ependante du locuteur)
Offre importante pour la reconnaissance de mots isoles independante du locuteur, par exemple, Datavox
(Vecsys - LIMSI), Dialogic (CNET) et Microsoft, IBM, Lernout & Hauspie, AT&T, Creative Labs...
+ Societes de services specialisees pour la creation de vocabulaires specifiques (apprentissage non
commercialise)
Parfois possibilite de fonctionnement en mode flexible : creation de modeles de mots a partir du texte
(performances plus faibles)
Reconnaissance monolocuteur
d Memes fournisseurs
Reconnaissance de la parole — 65
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
Offres en reconnaissance de parole grands vocabulaires et parole contin ue
En 1999-2000, un grands nombre d’acquisitions ont conduit a une concentration de l’offre :
Lernout & Hauspie http://www.lhsl.com Qui possedait deja Kurzweil rachete Dragon
Systems http://www.dragonsys.com (ainsi que les activites dans le domaine de Matra
Communications)
Micr osoft acquiert Entr opic (leader dans le domaine de la recherche developpement avec les toolkits
ESPS/Waves+ et HTK), le toolkit HTK reste un outil du domaine publique
http://htk.eng.cam.ac.uk , les autres activites d’entropics sont integrees par Miicrosoft
Research (Cambridge, UK et Redmond, USA)
Reconnaissance de la parole — 66
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
Syst emes personnels de dict ee : essentiellement deux offres grand pub lic
Dragon (Lernout & Hauspie) Dragon Dictate
Discrete dictation; continuous command/control; speaker-adaptive. Also provides mouse movement for hands-free operation of
Windows. Comes with a 120,000 word pronunciation dictionary; users can also add their own words or phrases. Dictate directly
into any application. Available in US and UK English, French, Italian, German, Spanish, and Swedish. Add-on vocabularies for
medicine, law, business and finance, computers and technology, journalism. Available as DragonDictate Singles Editions (10,000
words active), DragonDictate Personal Edition (10,000 words active), DragonDictate Classic Edition (30,000 words active),
DragonDictate Power Edition (60,000 words active).
Dragon NaturallySpeaking
General purpose, continuous speech dictation system. Personal Edition has a 30,000 word active vocabulary and comes with a
200,000+ word pronunciation dictionary; users can also add their own words or phrases.
IBM IBM VoiceType & ViaVoice
Supports speech input at 70-100 words a minute and can be used to control your desktop and applications. Isolated-word,
speaker-dependent system using a speech adapter card. Available for U.S. English, U.K. English, French, German, Italian,
Spanish and Arabic. Provided with a general office vocabulary and support for major OS/2 and Windows applications. Additional
specialised vocabularies are available: US: Legal, Emergency Medicine, Radiology and Journalism UK: Legal IT: Radiology
Reconnaissance de la parole — 67
7. Applications ENST, Dept. TSI / LTCI (CNRS URA 820)
References bib liographiques
Principes et th eorie (la meilleure reference !)
Fundamentals of Speech Recognition, L. Rabiner & B.-H. Juang, Prentice Hall, 1993
Plus de theorie
Statistical method for speech recognition, F. Jelinek, Bradford Book, 1998
Developpements avances
Automatic Speech and Speaker Recognition - Advanced Topics, edited by C-H. Lee, F. K. Soong & K. K.
Paliwal, Kluwer 1996
Int eret historique
Readings in Speech Recognition, edited by A. Waibel & K-F. Lee, Morgan Kaufmann, 1990
Produits, fournisseur s, etc.
WWW : http://svr-www.eng.cam.ac.uk/ comp.spee ch
(comp.speech newsgroup)
Reconnaissance de la parole — 68
Top Related