JACQUELINE VAISSIERE - Sorbonne · PDF fileJACQUELINE VAISSIERE ... the acouet1c-phonet1c...

Click here to load reader

  • date post

    08-Sep-2018
  • Category

    Documents

  • view

    216
  • download

    0

Embed Size (px)

Transcript of JACQUELINE VAISSIERE - Sorbonne · PDF fileJACQUELINE VAISSIERE ... the acouet1c-phonet1c...

  • ~

    -ln

    UTILISATION DES PARAMETRES SUPRASEGMENTAUX

    EN RECONNAISSANCE AUTOMATIQUE

    COMME AIDE A LA SEGMENTATION EN PHONEMES

    JACQUELINE VAISSIERE

    (Communication faite lors du Sminaire "Prosodie et Reconnaissance",

    Aix-en-Provence, 1982)

    RECHERCHES/ACOUSTIQUE CNET VOL VII 1982/8J

  • 129

    UTILISATION DES PflRAMETRES SUPRf'.SEGMENTAUXEI~ RECOiii~.o.ISSANCE AUTOr-1ATIOUE

    COl-1f.1E AIDE A LA SEGi'1EI'JTf-\TION EN PHONEr"1ES

    RESUME

    Des tests prliminaires ont suggr la possibilit d'utiliser 1a.du-re relative des segments acoustiques dtects par l'analyseur acoustico-phontique d'un systme de reconnaissance de la parole (KEAL), la frquence dufondamental superpose aux segments dtecte et les positions des pausescomme aide l'interprtation des frontires de segments acoustiques en termede frontires entre phonmes. En principe, en Franais, une voyelle ne doit

    correspondre qu'un seul segment acoustique (pas de diphto~ue). Or, le program-me actuel opre des fusions (un segment acoustique = deux voyelles), des dis-persions (une voyelle = deux segments acoustiques) et des omis.sions (une voyel-le - 0 segment acoustique). Premirement, les dispersions vocaliques correspon-dent en grande partie des positions suprasegmentales caractristiques, etelles sont causes par des variations spectrales dues la ralisation de lacontinuation majeure, et la chute finale, avant une pause, en fin de phrase.Ces contextes sont reprables automatiquement, et il est suggr d'ajusterl'algorithme de d.tection des frontires ce contexte suprasegmenta1. Deuxi-mement, les phnomnes d'longation tendent 1 caractriser la.syllabe touteentire, plutt qu'un des phonmes qui la composent: les variations relativesde dure des segments consonantiques et voca1iq~es en squence permettent dereprer un certain nombre de fusions et d'omissions par le dsquilibre dansla dure relative des segments en squence. L'intgration des algorithmes dansle module acoustico-phontique du systme KEAL n'a pas encore t faite et nousn'avons pas encore de donnes s~r l'efficacit relle de ces algorithmes.

    USE OF THE SUPRASEGMENAL PARAMETERSIii AUTOMATIC RECOGNITION

    AS AN AID Ir~ PHoi~EME SEG~]Ei~TATIoN

    ABSTRACT

    Preliminary tests have suggested that it may be possible touse the relative duration of the acoustic segments (phones), as delimited by

    the acouet1c-phonet1c analyzer of a Speech Recognition System (SRS) from spec-tral discontinuity in the speech signal, the fundamental frequency superimposedto the vocalic segments, and ~he location of pauses, as parameters 1n

  • 130

    deciding whether a vocalic segment effectively corresponds to the presence ofa simple vowel, and vice versa. ln French, vhere there is no diphthong, thereshould be, a priori, one vqcalic segment ~er rovel. However, the program makessome fusions (two successive vowels .one phone), some spreads (one vowel - twophnes) and some omissions (one vowel - 0 phone). First, analysis of the sprea-

    ding cases bas shawn errors to be partly predictable from the suprasegmentalcontext in which the vowel occurs. MOre precisely, spreading occurs frequentlywhen a vowel is superimposed with the so-called continuation rise, and at thevery end of the sentence, when Fo falls sbarply before a pause. Consequently,in terme of boundary, spectral discontinuity should be interpreted using the Facontour uperfmposed on the acoustic segments and the position of pauses, as areference. Secondly, lengthening tends to characterize the entire syllable, ratherthan a single phoneme. A a consequence, the relative du.ration of the phones insequence can be used to detect eventual spreading, omission (aute e in particu-lar) and merging (Note that in French, vowel duration is not distinctive). Theproposed algorithme have not yet be~ integrated into the acoustic-phonetic ana-lyzer. Work is in progres~ to quantitatively test the improvement brought aboutby taki~into account the suprasegmental context to interpret discontinuity inthe signal in terme of boundary.

  • U1

    UTILISP.TION DES PARAMETRES SUPRP.SEGMENTAUXEf'J RECOf'~NAISSANCE AUTOf1ATIOUE

    CO~V1E AIDE A LA SEGMENTATIOt~EN PHONEMES

    INTRODUCTION

    L'ide d'ut~iser les paramtres suprasegmentaux dans les systmes dereconnaissance n'est pas nouvelle. Il a dj t souvent propos d'utiliser lafrquence du fondamental, la dure et l'intensit, soit pour un repra'ge dessyllabes dites accentues, soit pour apporter des contraintes supplmentairessur les mots lors de la recherche lexicale, ou encore pour extraire des infor-mations sur la structure syntaxique de la phrase (Cheung, 1975 ; Lea, 1973 ;Martin, 1975,1979 ; Vaissire, 1982 ; etc...).

    Cet article propose d'utiliser la dure et la frquence du fondamen-tal pour dtecter certaines erreurs de segmentation, telles que les erreurs defusion ( plusieurs phonmes ne correspond qu'un seul segment'acoustique dtec-t) et les erreurs de dispersion vocalique ( une seule voyelle'correspondentdeux segments acoustiques).

    Dans la plupart des systmes de reconnaissance, et dans le systmeKEAL.en particulier (Gresser et al, 1975 ; Mercier, 1981), le signal de paroleest segment en segments acoustiques par reprage de discontinuits dans lespectre. Ces segments acoustiques sont alors interprts en termes de phonmes,et en gnral, le nombre de phonmes dtects est infrieur celui des segmentsacoustiques. A une consonne occlusive sourde, par exemple, correspondent gn-ralement trois segments acoustiques, l'un reprsentant une zne de silence,l'autre une explosion de bruit, et une zne d'instabilit (transition vers la .voyelle). A une voyelle ne devrait correspondre, en printipe, qu'un seul segment.acoustique centr sur sa partie la plus stable (Les transitions appartenant parconvention aux consonnes). Or, il arrive assez frquemment qu' une voyelle cor~respondent deux segments acoustiques (dispersion), ou ~ucun (omission de la vo-yelle,.et/ou fusion avec un phonme environnant). Nous avons examin en dtailces cas d'erreurs de segmentation sur quelques 200 phrases analyses par lemodule acoustico-phontique du systme KEAL*. La conclusion de notre observationqualitative est que l'information suprasegmentale, et plus particulirement, lafrquence du fondamental superpose aux segments, la dure relative des segmentsen squence, et la position des pauses, permet dans un grand nombre de cas, dedtecter les erreurs de fusion et de dispersion.vocalique et de les corriger.Le but de ce rapport. est de prciser ces deux aspect$. Notons que des. rsultats

    quantitatifs n'ont pas encore t obtenus, en particulier sur les effet de bord.

    {Corpus phontiquement quilibr (Combescure 1981).7 locuteurs)

  • 132

    1 - INFORMATION LINGUISTIQUE CONTENUE PANS LES DUREES RELATIVES DESSEGMENTS

    Rappelons tout d'abord quelques exemples d'utilisation possible de ladure relative des segments en reconnaissance automatique de la parole. Premire-ment, la. dure relative des segments se succdant immdiatement peut tre untrait segmentaI et contribuer l'identification du phonme : toutes choses ~ga-les par ailleurs, les voyelles nasales sont plus longues que les voyelles orales(Delattre, 1968) '; la dure d'une voyelle varie en fonction du v.oisement de; laconsonne~q\ii la suit (House et Fairbanks, 1953). Deuximement, la dure relativedes segments constitue un excellent filtre suprasegmental au niveau des hypoth-ses de mots: la dernire syllabe des mots en franais est en gnral la pluslongue des syllabes de ce mot (Delttre, 1966). Troisimement, la comparaison dela dure. relative des segments de mme nature, tels que les segments vocaliques,permet d'mettre d~s hypothses trs fiables sur la prsence de frontire majeure(Delattre, 1966 ; Vaissire, 1983 ce volume).

    L'utilisation efficace de l'information contenue dans la dur'e relativedes syllabes et phonmes repose sur un reprage peu prs correct des unitslinguistiques (voyelles et syllabes en particulier) sous-jacentes au signal.Une obse~ation informelle des rsul tats de l' analyseur pho~tique de KEAL nousa conduit reprer deux types "d'erreurs" de segmentation commises par le moduleacoustico-phontique sur les segments vocaliques: soit 11;ne voyelle correspon-dent plusieurs segments acoustiques dtects, soit il n"en correspond aucun.Rappelons que le franais n'a pas de diphtongues, et qu' chaque voyelle ne doitcorrespondre thoriquement qu'un seul segment. De plus, part le cas du leImuet, oles voyelles sont en gnral toutes prononces.

    II - DISPERSIONS VOCALIQUES

    II .1. ~!!~E!!~~_~!_~E~~~~E~_~1~~~ :

    .. '

    L'analyse des rsultats a montr- que la plupart des voyelles auxquel-les correspondaient deux segments taient des voyelles qui avaient subi un allon-gement d la prsence de la frontire majeure de la phrase. En d'autres ter-mes, les voyelles scindes en deux par le programme de segmentation sont desvoyelles finales de mot, qui en plus sont porteuses d'une monte' de continuation(changement pos'itif de la frquence du fondamental sur la majeure partie de lavoyelle). Le phnomne s'explique peut-~tre par un accroissement de la tensiondes cordes vocales qui modifie la source glotta1e et rsulte en une transforma-tion du spectre (Fant, 1960). Le changement spectral est interprt par le pro-gramme de segmentation comme un indice de frontire entre deux segments acous-tiques (la voye11e::est "scinde" en deux), ou parfois mme comme une transitiQncconsonantique (la voyelle est scinde en deux et une consonne, bien que de pro;,babi1it rduite, s'nterca1e entre les deux segments vocaliques).

    La figure 1 illustre trois exemples de dispersion. Dans la phrase"Annie s'ennuie loin...", la voyelle /i/ de "Annie" a t spare par l'insertiond'une nasale. Cette voyelle porte la monte majeure de la phrase. La voyelle /i/de "ennuie", qui porte une monte de continuation secondaire, a galement tdivise. Dans la phrase "