Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en...
-
Upload
brice-cormier -
Category
Documents
-
view
102 -
download
0
Transcript of Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en...
Acquisition automatique de «morphèmes acoustiques» pour
la compréhension langagière
en collaboration avec
Allen GorinGiuseppe Riccardi
Jerry Wright
2
Introduction
Notre objectif =>=> dialoguer en langage spontané avec des machines
Méthodes actuelles =>=> besoin des corpus de parole annotés manuellement
Inconvénients =>=> nouvelle application, collecte et annotation de nouvelles bases de données
Objectif =>=> développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions
Tâche difficile =>=> commencer avec un reconnaisseur phonétique (dépendant de la langue)
Evaluation =>=> l’utilité de unités apprises automatiquement, évaluée lors de la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T
3
Plan
1 Etat de l’art 2 Base de données 3 Acquisition automatique de
« morphèmes acoustiques » et leur caractérisation
4 Détection de ces morphèmes 5 Evaluation expérimentale =>=>
classification de requêtes téléphoniques
6 Conclusions et perspectives
4
1 Etat de l’art
Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte sans les délimiteurs de mots
Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés
Deligne et Bimbot - 1997;Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences d’unités de longueur variable dans de la parole continue
Notre but : exploiter la parole et sa signification pour la compréhension du langage en minimisant l’utilisation des transcriptions
5
Base de données utilisée
Corpus « How may I help you ?» HMIHY transactions téléphoniques classées par type d’appel
(appel <=> action): 7462 apprentissage et 1000 test
Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1
(Automate Stochastique de multigrammes, max 6) Résultats sur HMIHY : 44% de phones reconnus
correctement dans le meilleur chemin, et 68% dans le treillis phonétique
ASR-phone-train et ASR-phone-test
6
2.1 Caractérisation des données ASR-phone
7
3. Morphèmes acoustiques - définitions
Morphème acoustique f = forme acoustique associée à une action = séquence f de phones pi : f = p1 p2 … pn ;
Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori:
avec C =15 types d’appel de HMIHY
Son utilité pour la reconnaissance est évalué par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn)
fcPfP iCCi
maxmax
8
3.2 Morphèmes : schéma d’acquisition
Algorithme itératif
Seuil de sélection
Algorithme de regroupement
9
3.3 MI des séquences pré-sélectionnées
10
3.4 Pmax des séquences pré-sélectionnées
11
3.4 Séquences pertinentes Séquences pré-sélectionnées : seuil sur Pmax >= 0.6 Exemples de séquences pertinentes, associées à collect :
Séquence Pmax Séquence pertinente
f1 0.81 K ax l eh K T
f2 0.91 K ax l eh K T K ao l
f3 0.91 bos K ax l eh K T K ao l
f4 0.97 K ax l eh K T K ao l eos
f5 0.87 K l ay K K
f6 0.92 K l ay K K ao l D
f7 0.91 P l ey s ih K l ay K
f8 0.94 P l ey s ih K l ay K K ao l
12
3.5 On arrive au « Morphème acoustique »
En utilisant une mesure de distorsion segmentale On les représente par des automates à états finis Exemple d’un morphème acoustique f (associé a collect) :
l Kay ao lK ao
aa
m
K
K
K
T
eh
eh
D
ax
13
4. Détection des morphèmes acoustiques
Classification des appels est basée sur la détection des morphèmes acoustiques
Meilleur chemin de la reco. de phonèmes dans 42% des appels, aucun morphème trouvé
=> classification impossible pour ces appels => résultats non satisfaisants
Solution: les treillis du reconnaisseur phonétique
14
4.1 Détections dans les treillis de phonèmes
Treillis: représentation des distributions d’hypothèses
de reconnaissance alternatives
représentés comme des automates à états finis utilisés sous forme de :
treillis complets ou treillis élagués, seuil r : ri =< r
avec ri = pi / p1, et pi = prob. du chemin i
Résultats: plus de détections de morphèmes incluant aussi des fausses détections
15
4.2 Exemple du treillis d’une élocution
Elocution = « collect call « Treillis élague
correspondant :
l Kah laoK
l
D
axao
r
T
eh
K
16
4.3 Les treillis améliorent la détection
Expérience Pourcentage d’appels
sans détection
meilleur chemin 42 %
treillis élagué 12 %
treillis complet 6 %
17
4.4 Morphèmes acoustiques détectés
18
4.5 Statistiques d’un Morphème Acoustique Fc
Sa pertinence sur l’ensemble d’apprentissage P(c | Fc) = 0.89
W = suite de mots correspondant à Fc dans transr-word-train
P (c | Fc) = proba. d’apparition du morphème dans ASR-phone-test
P (W) = proba. d’apparition de W , calculée dans transr-word-test
expérience r P (Fc) P(W)
meilleur chemin
1 0.028 0.071
treillis élagué 0.05 0.042 -
treillis complet
0.00 0.080-
19
4.6 Détections et pertinence de Fc
Expérience r P ( Fc | c) P ( c | Fc )
meilleur chemin 1.00 0.15 0.93
treillis élagué 0.05 0.20 0.90
treillis complet 0.00 0.31 0.71
P ( Fc | c) = proba de Fc étant donné l’appel ;
P ( c | Fc ) = pertinence effective sur l’ensemble de test ;
20
4.7 Comparaison avec les données transcrites
P ( Fc | W) = proba de « détection correcte » de Fc ;
P ( Fc | ) = proba de « fausse détection » de Fc ;
Expérience r P ( Fc | W) P ( c | )
meilleur chemin 1.00 0.38 0.001
treillis élagué 0.05 0.53 0.004
treillis complet 0.00 0.66 0.035
W
W
21
5. Evaluation expérimentale avec la classification d’appels téléphoniques
Utilité des morphèmes acoustiques évaluée pour la classification d’appels de « How may I help you ? »
Classificateur actuel utilise seulement les meilleurs chemins
Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusqu’à la découverte
d’une détection considérer seulement ce chemin
si aucune détection => classer l’appel dans la classe poubelle « OTHER »
22
6. Résultats de la classification d’appels
23
6. Conclusions
Nous avons cherché à «apprendre à comprendre» à partir d’une base de données sans transcriptions
Comment : par l’acquisition automatique de « morphèmes acoustiques »
Utilisation pour la classification d’appels téléphoniques HMIHY
Résultats en cherchant dans les treillis, on réduit le taux de
faux rejet de 59%, accompagné d’une réduction d’appels classés correctement de 5%
On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet
24
7. Perspectives
Optimiser l’algorithme d’acquisition des séquences pré-sélectionnées
Phase de test : exploiter des détections multiples dans les treillis
Utiliser des détections « floues » Utiliser les treillis dans la phase
d’apprentissage