Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en...

24
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright

Transcript of Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en...

Page 1: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

Acquisition automatique de «morphèmes acoustiques» pour

la compréhension langagière

en collaboration avec

Allen GorinGiuseppe Riccardi

Jerry Wright

Page 2: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

2

Introduction

Notre objectif =>=> dialoguer en langage spontané avec des machines

Méthodes actuelles =>=> besoin des corpus de parole annotés manuellement

Inconvénients =>=> nouvelle application, collecte et annotation de nouvelles bases de données

Objectif =>=> développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions

Tâche difficile =>=> commencer avec un reconnaisseur phonétique (dépendant de la langue)

Evaluation =>=> l’utilité de unités apprises automatiquement, évaluée lors de la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T

Page 3: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

3

Plan

1 Etat de l’art 2 Base de données 3 Acquisition automatique de

« morphèmes acoustiques » et leur caractérisation

4 Détection de ces morphèmes 5 Evaluation expérimentale =>=>

classification de requêtes téléphoniques

6 Conclusions et perspectives

Page 4: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

4

1 Etat de l’art

Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte sans les délimiteurs de mots

Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés

Deligne et Bimbot - 1997;Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences d’unités de longueur variable dans de la parole continue

Notre but : exploiter la parole et sa signification pour la compréhension du langage en minimisant l’utilisation des transcriptions

Page 5: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

5

Base de données utilisée

Corpus « How may I help you ?» HMIHY transactions téléphoniques classées par type d’appel

(appel <=> action): 7462 apprentissage et 1000 test

Reconnaisseur phonétique indépendant de la tâche : Modèle de langage phono-tactique de Switchboard 1

(Automate Stochastique de multigrammes, max 6) Résultats sur HMIHY : 44% de phones reconnus

correctement dans le meilleur chemin, et 68% dans le treillis phonétique

ASR-phone-train et ASR-phone-test

Page 6: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

6

2.1 Caractérisation des données ASR-phone

Page 7: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

7

3. Morphèmes acoustiques - définitions

Morphème acoustique f = forme acoustique associée à une action = séquence f de phones pi : f = p1 p2 … pn ;

Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori:

avec C =15 types d’appel de HMIHY

Son utilité pour la reconnaissance est évalué par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn)

fcPfP iCCi

maxmax

Page 8: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

8

3.2 Morphèmes : schéma d’acquisition

Algorithme itératif

Seuil de sélection

Algorithme de regroupement

Page 9: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

9

3.3 MI des séquences pré-sélectionnées

Page 10: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

10

3.4 Pmax des séquences pré-sélectionnées

Page 11: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

11

3.4 Séquences pertinentes Séquences pré-sélectionnées : seuil sur Pmax >= 0.6 Exemples de séquences pertinentes, associées à collect :

Séquence Pmax Séquence pertinente

f1 0.81 K ax l eh K T

f2 0.91 K ax l eh K T K ao l

f3 0.91 bos K ax l eh K T K ao l

f4 0.97 K ax l eh K T K ao l eos

f5 0.87 K l ay K K

f6 0.92 K l ay K K ao l D

f7 0.91 P l ey s ih K l ay K

f8 0.94 P l ey s ih K l ay K K ao l

Page 12: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

12

3.5 On arrive au « Morphème acoustique »

En utilisant une mesure de distorsion segmentale On les représente par des automates à états finis Exemple d’un morphème acoustique f (associé a collect) :

l Kay ao lK ao

aa

m

K

K

K

T

eh

eh

D

ax

Page 13: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

13

4. Détection des morphèmes acoustiques

Classification des appels est basée sur la détection des morphèmes acoustiques

Meilleur chemin de la reco. de phonèmes dans 42% des appels, aucun morphème trouvé

=> classification impossible pour ces appels => résultats non satisfaisants

Solution: les treillis du reconnaisseur phonétique

Page 14: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

14

4.1 Détections dans les treillis de phonèmes

Treillis: représentation des distributions d’hypothèses

de reconnaissance alternatives

représentés comme des automates à états finis utilisés sous forme de :

treillis complets ou treillis élagués, seuil r : ri =< r

avec ri = pi / p1, et pi = prob. du chemin i

Résultats: plus de détections de morphèmes incluant aussi des fausses détections

Page 15: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

15

4.2 Exemple du treillis d’une élocution

Elocution = « collect call «  Treillis élague

correspondant :

l Kah laoK

l

D

axao

r

T

eh

K

Page 16: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

16

4.3 Les treillis améliorent la détection

Expérience Pourcentage d’appels

sans détection

meilleur chemin 42 %

treillis élagué 12 %

treillis complet 6 %

Page 17: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

17

4.4 Morphèmes acoustiques détectés

Page 18: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

18

4.5 Statistiques d’un Morphème Acoustique Fc

Sa pertinence sur l’ensemble d’apprentissage P(c | Fc) = 0.89

W = suite de mots correspondant à Fc dans transr-word-train

P (c | Fc) = proba. d’apparition du morphème dans ASR-phone-test

P (W) = proba. d’apparition de W , calculée dans transr-word-test

expérience r P (Fc) P(W)

meilleur chemin

1 0.028 0.071

treillis élagué 0.05 0.042 -

treillis complet

0.00 0.080-

Page 19: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

19

4.6 Détections et pertinence de Fc

Expérience r P ( Fc | c) P ( c | Fc )

meilleur chemin 1.00 0.15 0.93

treillis élagué 0.05 0.20 0.90

treillis complet 0.00 0.31 0.71

P ( Fc | c) = proba de Fc étant donné l’appel ;

P ( c | Fc ) = pertinence effective sur l’ensemble de test ;

Page 20: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

20

4.7 Comparaison avec les données transcrites

P ( Fc | W) = proba de « détection correcte » de Fc ;

P ( Fc | ) = proba de « fausse détection » de Fc ;

Expérience r P ( Fc | W) P ( c | )

meilleur chemin 1.00 0.38 0.001

treillis élagué 0.05 0.53 0.004

treillis complet 0.00 0.66 0.035

W

W

Page 21: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

21

5. Evaluation expérimentale avec la classification d’appels téléphoniques

Utilité des morphèmes acoustiques évaluée pour la classification d’appels de « How may I help you ? »

Classificateur actuel utilise seulement les meilleurs chemins

Modification simple : si détection dans meilleur chemin => OK sinon chercher dans le treillis jusqu’à la découverte

d’une détection considérer seulement ce chemin

si aucune détection => classer l’appel dans la classe poubelle « OTHER »

Page 22: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

22

6. Résultats de la classification d’appels

Page 23: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

23

6. Conclusions

Nous avons cherché à «apprendre à comprendre» à partir d’une base de données sans transcriptions

Comment : par l’acquisition automatique de « morphèmes acoustiques »

Utilisation pour la classification d’appels téléphoniques HMIHY

Résultats en cherchant dans les treillis, on réduit le taux de

faux rejet de 59%, accompagné d’une réduction d’appels classés correctement de 5%

On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet

Page 24: Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.

24

7. Perspectives

Optimiser l’algorithme d’acquisition des séquences pré-sélectionnées

Phase de test : exploiter des détections multiples dans les treillis

Utiliser des détections « floues » Utiliser les treillis dans la phase

d’apprentissage