16/11/2000 Projet RNRT SYMPATEX 1
SP1 : Transfert de technologie
Transfert des logiciels de la thèse de J. Cernocky
G. Baudoin
16/11/2000 Projet RNRT SYMPATEX 2
Plan de la présentation
Fournitures prévues et planning Travail réalisé Contenu du CD-ROM Description des différentes étapes de
traitement
16/11/2000 Projet RNRT SYMPATEX 3
Fournitures prévues et planning
T0+6 mois Rapport technique Démonstration du système de codage
de base Monolocuteur, synthèse LPC simple par
concaténation, hors temps réel. Système existant
Programmes en C sous LINUX ou UNIX. Fichiers de commande shell et quelques uns
en PERL.
16/11/2000 Projet RNRT SYMPATEX 4
Travail réalisé Système transféré pour faciliter le
portage sous Windows Visual C Programmes en C ANSI sous LINUX Red-hat
6.1. Fichiers de commandes tous en PERL. Document de description et documentation
des logiciels et scripts perl. CD ROM avec logiciels, scripts,
documentation, exemples. Terminé fin février 2000,
Réalisé en partie à Brno en collaboration avec Jan Cernocky, Petr Motlicek et Y.-P. Nakache.
16/11/2000 Projet RNRT SYMPATEX 5
Contenu du CD-ROM Contenu du CD-ROM
Logiciels (PROGS) et scripts perl (SCRIPTS) nécessaires pour réaliser les expériences de codage à très bas débit.
Extrait de la base de données BU radio corpus (DATA). Résultats des expériences sur cet extrait (WORK). Logiciels utilitaires : perl et emacs (WIN_SOFT). Documentation sur les logiciels C et les scripts (DOC).
Publication générale G. Baudoin, J. Cernocky, P. Gournay, G. Chollet. Codage
de la parole à bas et très bas débit. Annales des télécommunications, n°55, à paraître en 2000.
16/11/2000 Projet RNRT SYMPATEX 6
Codage à très bas débit par indexation d’unités de taille variable
Approche segmentale nécessaire. Pour des débits inférieurs à 500 bps, Il faut prendre
en compte les dépendances inter-trames. EX : LPC10 : 500bps spectre, 2000bps excitation.
Ensemble d’unités acoustiques obtenues automatiquement
Représentant de manière précise et concise les sons d’une langue.
Sans recourir à une base de donnée étiquetée phonétiquement.
Unités ALISP Automatic Language Independant Speech Processing.
16/11/2000 Projet RNRT SYMPATEX 7
Vocodeurs à très bas débits, phonétiques ou pseudo-phonétique
Codeur à reconnaissance-synthèse: Effectue, dans la phase d’analyse, une
reconnaissance d’unités acoustiques de codage Linguistiques (phonèmes, transitions entre phonèmes,…)
Nécessite une base de données étiquetées Unités acoustiques obtenues automatiquement par des
techniques statistiques : codeur pseudo-phonétiques. base de données non étiquetées.
Effectue au décodage la synthèse du signal de parole par concaténation d’unités de synthèse.
16/11/2000 Projet RNRT SYMPATEX 8
Codeur à très bas débit
Dictionnaire d’unités
de synthèse
Dictionnaire d’unités de codage
Analyse spectrale
Analyse prosodique
Reconnaissance unité
acoustique
Indice unité
acoustique
Paramètres de
prosodie
Parole originale
Synthèse par
concaténation HNM, PSOLA
parole synthétique
CODEUR DECODEUR
16/11/2000 Projet RNRT SYMPATEX 9
Description des différentes étapes de traitement
Préparation des données Suppression des en-tête, retournement octets,
découpage en fichiers courts, création de listes. Apprentissage des unités de codage et de
synthèse Utilisation du vocodeur : Codage-décodage
ou analyse-synthèse d’une phrase Reconnaissance des unités de codage . Synthèse par concaténation des unités de
synthèse.
16/11/2000 Projet RNRT SYMPATEX 10
Apprentissage non supervisé des unités de codage
Analyse et Segmentation initiale du corpus d’apprentissage par décomposition temporelle.
Cibles spectrales et fonction d’interpolation (Atal, Bimbot) Classification des segments par quantification
vectorielle sur les cibles spectrales. 1ère transcription.
Modélisation des classes par HMM Itération segmentation, apprentissage des HMM.
Raffinement des classes et modèles Itération de la procédure segmentation-transcription par
les HMM, ré-estimation des HMM.
16/11/2000 Projet RNRT SYMPATEX 11
Détermination des unités de codage, analyse, décomposition temporelle
Analyse spectrale LPCC, trames 20 ms, déplacement 10 ms. Soustraction du vecteur cepstral moyen pour
minimiser l’influence des variations de conditions d’enregistrement.
Décomposition temporelle Segmentation prenant en compte la co-articulation Modélise une suite de vecteurs spectraux comme
une suite de cibles spectrales reliées par des fonctions d’interpolation se recouvrant partiellement.
16/11/2000 Projet RNRT SYMPATEX 12
Décomposition temporelle
17 événements/s en moyenne
16/11/2000 Projet RNRT SYMPATEX 13
Classification des cibles de la décomposition temporelle
Après DT, base de données segmentée en événements de la DT (1 cible, 1 FI).
On regroupe les segments en 64 classes par Quantification vectorielle ->transcription Le dictionnaire est appris sur les vecteurs
spectraux au centre de gravité des FI. La classification est faite en comparant les
distances d’un segment aux différentes classes. 1ère Transcription
f2b.sym, f2b.plim, f2b.seg,*.phn (3 colonnes).
16/11/2000 Projet RNRT SYMPATEX 14
Modélisation stochastique HMM des classes obtenues après DT et QV
Modélisation facilite reconnaissance, Permet d’affiner le jeu d’unités de codage. Quelques itérations (typiquement 5):
Apprentissage des modèles HMM, à partir d’une segmentation et d’une transcription du corpus.
Re-segmentation et transcription avec ces modèles.
Au fur à mesure, la vraisemblance des modèles et la cohérence acoustique des classes augmentent.
Logiciel HTK
16/11/2000 Projet RNRT SYMPATEX 15
Topologie des modèles HMM
1 2 3 4 5
a22 a33 a44
a12 a23 a34 a25
3 états émetteurs
Modèle de langage : unigrammes, facteur de langage .
Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; LPCC;
log(E).
Pour chaque flux une loi gaussienne simple.
16/11/2000 Projet RNRT SYMPATEX 17
Allongement des unités de codage
Technique de Multigramme appliquée sur : les séquences de symboles de la QV
Pour une unité de i symboles, 1 HMM à 2i+1 états Beaucoup de HMM à entraîner.
Les séquences de symboles HMM. Utilisation
Diminution du débit Unités de synthèse.
Allongement du retard
16/11/2000 Projet RNRT SYMPATEX 18
Expériences et résultats
Essais sur le corpus Boston university Radio Corpus (anglais), Martin Ruzek (radio tchèque), CD audio en français.
Fe=16 000 Hz ou 11 025 Hz. monolocuteur, 1 h de parole par
locuteur.
16/11/2000 Projet RNRT SYMPATEX 19
Résultats codage de l’enveloppe spectrale et des unités de synthèse
LocuteurDébit binaire en bps, unités de codage et de synthèse
Locuteur
féminin
Locuteur
masculin
HMMHMM + MG (n=6)
190,2145
195,5156
16/11/2000 Projet RNRT SYMPATEX 20
Détermination des unités de synthèse
Dans chaque classe d’unité acoustique de codage, on choisit 8 représentants pour la synthèse. Les 8 plus longs segments.
Pour coder un segment s attribué à une classe Ci, on compare par DTW le segment s aux 8 représentants de la classe.
16/11/2000 Projet RNRT SYMPATEX 21
Codeur
parole Analyse spectral
e
Analyse prosodiqu
e
Reconnaissance HMM
Dictionnaire des modèles
HMM des unités ALISP
Représentant A1
…
Représentant A8
HMM A
Détermination des unités de
synthèse
Choix unité de synthèse par
DTW
Codage prosodie
Indice unité ALISP
Indice unité de
synthèsePitch,
énergie, temps
16/11/2000 Projet RNRT SYMPATEX 22
Décodeur
Parole synthétique
Représentant A1
…Représentant A8
Indice ALISP
N° représentant de synthèse
Paramètres de prosodie
Choix unité de synthèse
Synthèse par
concaténation
Top Related