Traitement de la parole : Synthèse et reconnaissance

Post on 04-Jan-2016

58 views 6 download

description

Traitement de la parole : Synthèse et reconnaissance. Plan. La parole, c’est quoi ? Analyse de la parole Parole et IdL Synthèse vocale Reconnaissance vocale Evaluation. 1. La parole, c’est quoi ?. Production Perception. Production Signal acoustique « en 3 étapes » - PowerPoint PPT Presentation

Transcript of Traitement de la parole : Synthèse et reconnaissance

Traitement de la parole : Synthèse et reconnaissance

Plan

• La parole, c’est quoi ?

• Analyse de la parole

• Parole et IdL– Synthèse vocale– Reconnaissance vocale

• Evaluation

1. La parole, c’est quoi ?

Production Perception

• Production– Signal acoustique « en 3 étapes »– Appareil respiratoire & appareil phonatoire– Types de sons

• Voyelles : orale / nasales• Consonnes : fricatives, occlusives, liquides, nasales.

(voisées / non voisées)

• Perception– Vibrations mécanique -> impulsions nerveuses

Caractériser la parole

• Facteurs physiques– Fréquence et hauteur

– Prosodie• Intonation

• Rythme

• Intensité

– Timbre

• Autres facteurs– Les émotions dans la parole

2. Analyse de la parole

Analyse de la parole

• Discipline : au croisement du traitement du signal et des sciences du langage

• Traits acoustiques d’un signal de parole– Fréquence fondamentale– Spectre sonore– Energie

Modélisation du signal acoustique

• Signal de parole– Non stationnaire à long terme– Stationnaire à (très) court terme

• Production image acoustique significative– Synthèse : produire une telle image– Reco : extraire info de cette image

Modélisation du signal acoustique

• Trouver des traits acoustiques caractéristiques• Voyelles : les formants

– Maxima d’énergie dans un spectre de parole– Fréquence, Amplitude et bande passante– F1 et F2 pour triangle acoustique

• Consonnes– Occlusives : silence puis perturbation– Fricatives : bruit de friction– Sonnantes : formants et peu de bruit

Construction d’un modèle acoustique

3. Parole et IdL

3.1. Synthèse vocale

Objectifs

• Générer de la parole à partir d’un texte– De l’orthographe vers la phonétique– Du phonétique au son numérique

• Tendre vers de la parole « naturelle » : prononciation et prosodie « écologiques »

Historique

• 1ère génération : 1965 -1985– Synthèse par règles / par formants– Exc

• 2ème génération : depuis 1985– Synthèse vocale par diphones– Portions de parole naturelle « concaténée »

• Sélecton de diphones/d’unités

Aspect technique

• Transcription phonétique– Transformer une forme orthographique en une

séquence de phonèmes• Règles de réécriture en contexte

• Lexique d’exception

• Application de règles à cette séquence– Formants / diphones

– Gestion de la prosodie

– Gestion des émotions (?)

Applications

• Créer des interfaces vocales– Vocalisation d’écran– Serveurs téléphoniques

• Outils d’enseignement assisté par ordi– Dictée automatique, Apprentissage des langues

• Applications industrielles

• Télématique vocale

Retours d’expériences par l’usage

• Fiabilité et robustesse– Intelligibilité parfaite– Filtrage « intelligent »

• Attentes des usagers– Naturel de la parole : fluidité et expressivité– Voix aux timbres variés– Langues traitées– Prétraitement des documents

Evaluation

• Test de diagnostic– Tester modules individuellement

• Evaluation globale– Intelligibilité globale– Qualité globale

• Comparaison entre systèmes par utilisateurs

3.2. Reconnaissance vocale

Objectifs

• Analyser un signal de parole pour le transcrire sous une forme exploitable par la machine– Reconnaissance vocale– Vérification du locuteur– Identification du locuteur

• 1er système : Bell Labs (1952)– Reconnaissance de chiffres isolés

Principe

• A partir d’un signal de parole– Extraire une image acoustique (par tranches)– Numériser le signal pour le donner en entrée

du système– Mise en relation des segments de parole et des

éléments lexicaux– Reconstitution du discours le plus probable

Principe (2)

• Modèles sous-jacents– Modèle acoustique :

• à partir du résultat du traitement du signal, donner la probabilité que le signal corresponde à chacun des phonèmes de la langue cible

– Modèle de prononciation• Prononciation(s) possible(s) pour chaque mot du vocabulaire

(et proba associée(s))

– Modèle de langage• Proba de suite de mots

Application

• Interfaces Homme-machine– Aéronotique / automobile– Systèmes embarqués – Bureautique

• Enseignement assisté par ordinateur

Evaluation

• Utilisation du WER (Word Error Rate)– Taux de mots incorrectement reconnus par

rapport à un texte de référence

• Mots isolés ou parole continue ?

• Variabilité inter/intra locuteur ?

• Naturel du discours ?