TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Post on 03-Apr-2015

111 views 2 download

Transcript of TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Introduction-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Analyse-synthèse-modélisation physique-modélisation électrique-analyse spectrale-prédiction linéaire

Codage-quantification-codage par modèles-transmission

Reconnaissance-modélisation du langage-théorie de la décision-intelligence artificielle

Com. Multimodale-multimédia-son-image-les 5 sens

Compréhension-base de données

-grammaire, analyse sémantique

Identification‘speaker specific’

Restauration-analyse SNR-filtrage

Télécommunications, services & usages

TSI Jean-Marie Gorce

La paroleidée,

niveau cognitif,pensée.

Locuteur

compréhension

Auditeur

constructiongrammaticale.

commandemusculaire.

signalacoustique

=vecteur de la

parolesystème

phonatoire

prétraitementsensoriel

systèmeauditif

traitementcognitif

?????????

objectif : la communication

Télécommunications, services & usages

TSI Jean-Marie Gorce

‘la parole aux télécoms’

microphone

CAN

signal acoustiqueLocuteur Auditeur

problème : limité dans l’espace

signalélectrique

signalnumérique

CNA

signalnumérique

écouteur

signalélectriquetransmission

électromagnétique

câble

hertzien

Télécommunications, services & usages

TSI Jean-Marie Gorce

Le codage de la paroledegré de complexité

-analogique RE

-numérique quantification échantillonnage

RE CAN CNA

Normes de communication

-codage modélisation compression

RE CAN CNAcodeur décod.

Télécommunications, services & usages

TSI Jean-Marie Gorce

Aspects abordés dans ce cours

• modélisation du signal de parole

• le codage direct (PCM, DPCM, APCM, ADPCM)

• la prédiction linéaire (APC,LPC,RPE-LTP)

• la quantification vectorielle (VSELP, CELP,

ACELP)

• transformée en sous-bande (MBE,MELP)

• signal audio musical : HD, (MPEG, MIDI)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Etude du signal de parole-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Plan

production naturelle de la parole

modélisation physique

modélisation spectrale, analyse de Fourier

modélisation paramétrique autorégressive

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-Production naturelle de la parole1) un peu de physiologie

oesophage

Trachée artère

glotte

langue

narines

lèvres

Caviténasale

phar

ynx C. buccale

larynx

Télécommunications, services & usages

TSI Jean-Marie Gorce

Le larynx : - voisé ou non voisé - fréquence fondamentale (pitch)

glotte

épiglotte

Cordesvocales

muqueuse

Télécommunications, services & usages

TSI Jean-Marie Gorce

Un son voisé est défini par :- sa fréquence fondamentale (=hauteur) - son timbre = rapport entre fondamental et harmonique

2) Le rôle des cordes vocales : sons voisés

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

temps

amp

litu

de ‘e’

Télécommunications, services & usages

TSI Jean-Marie Gorce

PharynxCavitébuccale E

souffle

cordesvocales

Cavité nasale E

3) Représentation simplifiée :

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

-0.4

-0.2

0

0.2

0.4

0.6

temps

amplitude

b on j ou r

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) Les différents types de sons (phonèmes)

Les voyelles (voisées)

Orales

Nasales

cordesvocales

PharynxCavitébuccale E

souffle

Cavité nasale E

cordesvocales

PharynxCavitébuccale E

souffle

[A, E, I, O, U, OU...]

[IN, UN, AN, ON]

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100-0.2

0

0.2

0.4

t (ms)

[e]

0 50 100-0.2

0

0.2

0.4

t (ms)

[on]

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

0 1 2 3 4 50

10

20

30

40

50PSD [on]

f (kHz)

(dB

)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Les consonnes

Liquides

Nasales

cordesvocales

PharynxCavitébuccale E

souffle

Cavité nasale E

cordesvocales Pharynx

Cavitébuccale E

souffle

[R,L]

[M,N,GN]

Télécommunications, services & usages

TSI Jean-Marie Gorce

Fricatives non voisées

Fricatives voisées

PharynxCavitébuccale E

souffle

cordesvocales

[F, S, CH]

[V, Z, J] PharynxCavitébuccale E

souffle

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 10 20 30 40 50 60 70 80 90 100-0.1

-0.05

0

0.05

0.1

t (ms)

[ch]

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Occlusives non voisées

Occlusives voisées

PharynxCavitébuccale E

souffle

cordesvocales

[P, T, K]

[B, D, G] PharynxCavitébuccale E

souffle

Cavité nasale E

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100 150-1

-0.5

0

0.5

1

t (ms)

[bon]

0 50 100 150-0.1

-0.05

0

0.05

0.1

t (ms)

[par]

[p]

[on]

[r]

[b]

[a]

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-Modélisation physique

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Modélisation harmonique

Modèle de Dudley (VOCODER) également développé en 1930

Bandpass filter 1

Bandpass filter Q

Non-linearity

Non-linearity

Lowpassfilter

Lowpassfilter

Samplingrate

reduction

Samplingrate

reduction

AmplitudeCompression

AmplitudeCompression

speech

Télécommunications, services & usages

TSI Jean-Marie Gorce

DFT

0 50 100-0.2

0

0.2

0.4

t (ms)

[e]

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

Transformée de Fourier = décomposition spectrale

Télécommunications, services & usages

TSI Jean-Marie Gorce

Quelques propriétés spectrales

•Sons voisés Fondamental (pitch)

0 1 2 3 4 50

10

20

30

40

50PSD [e]

f (kHz)

(dB

)

Harmoniques

Formants

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Sons non voisésBruit blanc

(souffle)

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Non stationnarité : le spectrogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-0.4

-0.20

0.2

0.4

0.6

t (s)

bonjour

t (s)

f (M

Hz)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-0.1

-0.05

0

0.05

0.1

t (s)

sachez parler

t (s)

f (M

Hz)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

Télécommunications, services & usages

TSI Jean-Marie Gorce

Signal aléatoire :

Densité spectrale de puissance

SignalTransformée de Fourier

Processus stationnaire, ergodiquePlusieurs réalisations,Energie finie DSP=mean(TSF)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Processus gaussien non corrélé

Signal

Fourier

0

DSP

Signal

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-Modélisation paramétrique

La modélisation paramétrique présentée repose sur les propriétésde la transformée en z et de la modélisation ARMA (filtres IIR; FIR).

Quelques rappels :

- transformée en z

-modélisation ARMA

-les différentes représentations des modèles AR

Télécommunications, services & usages

TSI Jean-Marie Gorce

1) La transformée en z

la transformée en Z est aux signaux échantillonnés ce que la transformée de Laplace est aux signaux continus (automatisme)

X z x k z k( )

•déf.X(z) est définie comme lasomme d’une série relativeaux échantillons temporels x[k]

étude du domaine de convergence en fonction de z

•prop. linéaritédécalage temporelconvolution temporelle

cf. cours TSI

Télécommunications, services & usages

TSI Jean-Marie Gorce

•liens avec la transformée de Fourier discrète

si on restreint l’espace de z au cercle unité, z=e(j) , on retrouvela transformée de Fourier :

k

fk2jjd e]k[x)ez(X)f(X

la périodicité du spectreapparaît naturellement, enfonction de la fréquence d’échantillonnage

|z|<1

Re(z)

Im(z)

f=0

f=fe

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Fonction de transfert numérique H(z)

h[k] x[k] y[k]=(x*h)|k

X(z) H(z) Y(z)=X(z).H(z)

Xd(f) Hd(f) Yd(f)

z=exp(j2f) z=exp(j2f)

Comme pour la TFD, le passage dans le domaine des z, permetde remplacer l’opération de convolution par une opération demultiplication => mathématiquement très intéressant

Télécommunications, services & usages

TSI Jean-Marie Gorce

•cas spécifique où H(z) est un polynôme du type

H zb b z b z

a z a zq

q

pp

( ). . .

. . .

0 1

1

111

remarques : a0=1 pour unicité du modèleai, bi réels si signal réelfactorisation numérateur => q zérosfactorisation dénominateur => p pôles

Tous les pôles dans le cercle unité => stabilité du filtreTous les zéros dans le cercle unité =>phase minimale

Télécommunications, services & usages

TSI Jean-Marie Gorce

•intérêt de cette structure

Y(z)=X(z).H(z)

expression dans le domaine temporel

y k a y k a y k p b x k b x k b x k pp p( ) ( ) . . . ( ) ( ) ( ) . . . ( ) 1 0 11 1

expression dans le domaine spectral

jp

pj

1

jqq

j10j

ea...ea1

eb...ebb)ez(H)f(H

Télécommunications, services & usages

TSI Jean-Marie Gorce

•problème de filtrage :

•problème de modélisation:

H (z) x[k] y[k]

def. d’un gabarit

H (z) u[k] y[k]

x[k]

e[k]+

-

2) Modélisation ARMA

Télécommunications, services & usages

TSI Jean-Marie Gorce

•modélisation AR (autorégressive)

- modèle ’tout pôles’- algorithmes d’estimation très rapides.- spectres présentant des pics.

•modélisation ARMA (moving average autoregressive)

- les zéros caractérisent la partie ‘moyenne ajustée’.- les pôles caractérisent la partie ‘autorégressive’.

•modélisation MA (moyenne ajustée)

- modèle ’tout zéros ’spectres doux

MA AR ordre infini

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Exemple de modèles AR, 1 pôle réel

-0.5 0 0.5-5

0

5

10

15

20

fr

réponse spectrale

(dB

)

position des pôles

0.25

-0.25

0.5-0.5

0

0 500

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

n

réponse impulsionnelle

p=0.85p=0.6p=0.3

Télécommunications, services & usages

TSI Jean-Marie Gorce-0.5 0 0.5-5

0

5

10

15

20

fr

réponse spectraleposition des pôles

0.25

-0.25

0.5-0.5

0

0 50-1

0

1

n

réponse impulsionnelle

(dB

)

•Exemple de modèles AR, 2 pôles conjuguésp=0.85; 0.3

p=0.85 exp(j/4)p=0.3 exp(j/2)

Télécommunications, services & usages

TSI Jean-Marie Gorce

3) Modélisation ARMA de la parole

•représentation shématique du signal de parole :

Canal 1 Canal n Esource

la source peut être un bruit blanc (sons non voisés ou chuchotés)ou 1 train périodique pour les sons voisés.

le conduit vocal peut être représenté par une succession de tubes acoustiques,(pharynx, cavité buccale, nasale) modélisés par des résonateurs.

l’émetteur, lèvres ou narines, représente une charge acoustique pour l’onde sonore qui y arrive.

Télécommunications, services & usages

TSI Jean-Marie Gorce

•source pour les sons voisésG(z)

xv(k)

G zG

z z( )

0

1 11 1

0 100 200 300 400 5000

5

10

n

réponse impulsionnelle

0 1 2 3 40

10

20

30

40

50

60

f (kHz)

réponse spectrale

(dB

)

=0.97, =0.85, fE=44kHz

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 500 1000 1500 2000 25000

1

2

3

4

5

fE=44kHz

n

Source (sortie de G(z) ) pour les sons voisés

Télécommunications, services & usages

TSI Jean-Marie Gorce

•source pour les sons non voisés

Télécommunications, services & usages

TSI Jean-Marie Gorce

•canal ou tube acoustique

La réponse acoustique d’un tube est caractérisée par un résonateur.

La réponse d’un résonateur est donnée par

V zA

a z a zi

i

i i

( ), ,

1 1

12

2modèle AR d’ordre 2

Chaque résonateur est un ‘formant’ dont la fréquence centrale est :

F fa

ai Ei

i

12

21 1

2cos

/,

,

Le conduit vocal est donc bien modélisé par un modèle AR, ordre 2n

V zA

a z a zi ii

n( )

, ,

1 1

12

2

1

Télécommunications, services & usages

TSI Jean-Marie Gorce

0 50 100-1

-0.5

0

0.5

1

1.5

n

réponse impulsionnelle

0 5

-14

-12

-10

-8

-6

-4

-2

0

2

4

f (kHz)

(dB

)

position des pôles

11kHz

-11kHz

22kHz 0

réponse spectrale

Télécommunications, services & usages

TSI Jean-Marie Gorce

•L’émetteur (lèvres ou narines)

La pression observée à une certaine distance des lèvres est proportionnelleà la dérivée du volume des lèvres :

R z C z( ) 1 1modèle MA d’ordre 1

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Son voisé

V1(z) Vn(z) R(z)G(z)

V(z)

T zT z

z z a z a zi ii

n( )

01

1 11

12

2

1

1

1 1 1

qui tend vers 1 modèle AR d’ordre 2n+1, si un des pôles de G(z) est proche de l’unité

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Son nasalisé

les sons nasalisés font intervenir simultanément les cavités nasale et bucale.

V1(z) Vn(z) R(z)G(z)

T zT

A zT

A zA z T A z T

A z A z( )

( ) ( )( ) ( )

( ) ( )

1

1

2

2

2 1 1 2

1 2

V’ (z) R’(z)

modèle ARMA

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) En résumé

•complexité de la production de la parole (sons voisés, occlusifs etc...).

•principales propriétés spectrales du signal de parole (électrique ou acoustique) : fondamentale, harmonique, formants, bande passante vocale, non stationnarité, stationnarité locale (20ms), signal stochastique

•modèles ARMA d’un processus physique (intérêt pour le codage)

•un modèle AR pouvait suffire dans certains cas.

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Le codage de la parole-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Compression

Problématique du codage

qualité

débit

complexité coût

Télécommunications, services & usages

TSI Jean-Marie Gorce

Exemple :

norme CCITT G.711Échantillonnage : 8kHzQuantification : non uniforme (A-law ou µ-law) sur 8 bitsDébit : 64kb/s

Télécommunications, services & usages

TSI Jean-Marie Gorce

A-La quantification scalaire(quantization)

L’échantillonnage

La quantification uniforme

La quantification non uniforme

La quantification différentielle

La quantification adaptative

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-L’échantillonnage(sampling)

Fréquence d ’échantillonnage ???

Télécommunications, services & usages

TSI Jean-Marie Gorce

Recouvrement spectral

0 1 2 3 4 5 6 7 8 9 10-20

-10

0

10

20

30PSD [ch]

f (kHz)

(dB

)

Théorème de Shannon : fmax=Fe/2•filtre anti-repliement (anti-aliasing)

Initial aliased prefiltered

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-La quantification

Exemple : quantification sur 3 bits

Télécommunications, services & usages

TSI Jean-Marie Gorce

•La quantification

Q(x)x y D D q qq q n ; , ,1

- L : nombre de valeurs quantifiées- b : nombre de bits de codage; L = 2b

- x(0) ... x(L) : niveaux de décision- x(0),x(L) : seuils- (i)=x(i)-x(i-1) : pas de quantification- y(1) ... y(L) : valeurs quantifiées

1° quelques définitions

Télécommunications, services & usages

TSI Jean-Marie Gorce

•L’erreur de quantification : q(x)=Q(x)-x- granulation : erreur liée au nombre de valeurs choisies (e

2)

- saturation : erreur liée au dépassement des seuils (d2).

•signaux aléatoiresle signal de parole est considéré comme un signal aléatoire à moyenne nulle et variance x

2. l’erreur de quantification sera donc appelée bruit dequantification, en général à moyenne nulle (0,e

2).

x(n) y(n)+ +

q(n) q(n)

Télécommunications, services & usages

TSI Jean-Marie Gorce

[sachez parler]VS ???

-0.1 0 0.1histogramme

Télécommunications, services & usages

TSI Jean-Marie Gorce

•Rapport Signal-Bruit (RSB ou SNR)

22

2

log10de

xRSB

[dB]

•facteur de charge =xs/x

)log(2077.402.6 bRSB

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° la quantification uniforme

définition : - y(i)=1/2 ( x(i-1)+x(i) )-(i)= qlqsoit i -valeurs seuils : -xs, xs

propriétés : - =2 xs /L- erreur de granulation |e|< /2

Télécommunications, services & usages

TSI Jean-Marie Gorce

Télécommunications, services & usages

TSI Jean-Marie Gorce

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° la quantification non-uniforme

Télécommunications, services & usages

TSI Jean-Marie Gorce

Transformation non-linéaire préalable

x(n) y(n)+

q(n)

Compressiondes

amplitudes

Dilatationdes

amplitudes

Signal de distribution uniforme

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme: Modulation par Impulsions Codées (MIC, 64kbits/s)(Pulse Code Modulation, PCM)

Filtre 100-3400Hz

Éch.fE=8kHz

Compressiond ’amplitude

Quantification8bits

1x

xA);x(sgn

)Aln(1

)xx

Aln(1x)x(F

Ax

x0);x(sgn

)Aln(1

xA)x(F

max

1maxmax

1

max

Norme européenne

Télécommunications, services & usages

TSI Jean-Marie Gorce

Représentation de la loi de compression

Télécommunications, services & usages

TSI Jean-Marie Gorce

Télécommunications, services & usages

TSI Jean-Marie Gorce

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-La quantification différentielle(differential quantization)

1° Principe

x(n) y(n)+

q(n)

-

z-1x(n-1)

r(n)

)1(12 22xxr Décorrélation >>>

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Gain RSB

))1(12

1log(10

x

RSB

Si x(1)>0.5, r2 < x

2,

A nombre de niveaux constant, on peut réduire le pas de quantification

et améliorer le RSB dans un rapport r2/x

2

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Mise en œuvre codage-décodage

x(n) +

q(n)

-

z-1x(n-1)

r(n) y(n)

+

z-1y(n-1)

t(n)

Intégration de l ’erreur !!!!

y(n)=x(n)+e(n); e(n)=q(n)+e(n-1)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Idée : coder la différence par rapport à la sortie

x(n) +

q(n)

-y(n-1)

r(n) y(n)

+

z-1y(n-1)

t(n)

Remarque : OK si le signal est correctement codé ; quantification suffisante

Télécommunications, services & usages

TSI Jean-Marie Gorce

Délocalisation du décodage

x(n) +

q(n)

-y(n-1)

r(n) t(n)

z-1

y(n)

+

z-1y(n-1)

+

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Prédiction linéaire

r(n)=x(n)-x(n-1)

r(n)=x(n)-a1.x(n-1) - a2.x(n-2) - … - ap.x(n-p)

•Quel ordre p ?•Quels paramètres AR ?•Quel gain ?

•Variance de l ’erreur faible.•Erreur = bruit blanc•Justification de ce modèled’après la théorie de la parole

Télécommunications, services & usages

TSI Jean-Marie Gorce

Modélisation AR

x(n) +

q(n)

-y(n-1)

r(n) t(n)

P(z)

y(n)

+

P(z)y(n-1)

+

P(z)=a1z-1 + a2z-2 + ... + apz-p

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Système DPCM (MICD)

-0.1

-0.05

0

0.05

0.1

20ms (160 ech);8kHzARMA(6,2);2-5 bits/ech. (16-64 kb/s)

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-La quantification adaptative(adaptive quantization)

1° Principe : adapter au fur et à mesure les paramètres (AR, gain)du signal de parole

couplée avec la quantification différentielle

Modulation par Impulsions Codées Différentielle Adaptative (MICDA)Adaptive Differential Pulse Code Modulation (ADPCM)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Disponible sur le site Texas Instrumenthttp://www.ti.com/sc/docs/psheets/abstract/apps/bpra053.htm

Télécommunications, services & usages

TSI Jean-Marie Gorce

4) En résumé

•système PCM : fe=8kHz, 8pts/ech. 64kb/sec,

•Système ADPCM : fe=8kHz, 4<.<8pts/ech. 16-64kb/sec

Objectif :<16 kb/sec Moins de

2bits/point !!!!!!!!

Télécommunications, services & usages

TSI Jean-Marie Gorce

B-La quantification vectorielle

Principe de la quantification vectorielle

Quantification vectorielle prédictive (CELP).

1 exemple de codeur utilisé en téléphonie cellulaire : GSM.

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-La quantification vectorielle(vectorial quantization)

1° Principe : Regrouper les échantillons pour les transmettre.Mieux rentabiliser chaque bit utilisé.

i(m)

Nm1N1mx)m(V

V(m) Règle du plus proche

voisin

V’1…V’ L

Inspectiondans une

table

V’1…V’ L

V’(m)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Exemple pour M=2 : le codage vectoriel permet d ’adapter la répartition des codes.

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Algorithmie : Comment choisir le dicitonnaire ??

algorithme de Lloyd-Max

1- Initialiser le ‘dictionnaire’ >> niveaux

2- Appliquer la règle du plus proche voisin(minimiser l’erreur de codage) >> seuils implicites

3- Appliquer la règle du centroïde (minimiser l’erreur de décodage) >> niveaux

4- Refaire 2 et 3 jusqu’à convergence...

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-LPC (linear predictive coding)1° Principe : Minimiser la corrélation entre échantillons codés simultanément pour simplifier le travail du ‘ dictionnaire ’.

Coder l ’erreur après modélisation AR

-

R(m)A(z)

i(m)V(m)

Optimisation des paramètres AR

pour chaque vecteur

Règle du plus proche

voisin

R’1…R’ L

V’(m)1/A(z)

Inspectiondans une

table

R’1…R’ L

R’(m)

V(z) = Bruit(z)/A(z)

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Codeur prédictif excité par des codes (Code ExcitedLinear Predictive Coding, CELP) :

Minimiser les distorsions en minimisant l ’erreur relative au signal initial.

1/A(z)

i(m)V(m) Règle du

plus prochevoisin

V’1…V’ L

V’(m)Inspectiondans une

table

R’1…R’ L

1/A(z)

V’M

R’1…R’ L

AR(m)

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Prédiction long terme (long terme prediction, LTP) :

Ajouter un 2ième étage de prédiction pour prendre en comptela périodicité des sons voisés....

4° Introduction d ’un facteur perceptuel (préfiltrage W(z)) :

Utiliser les principes de ‘masquage du son’ pour concentrerl ’erreur dans les zones non perceptuelles (cf. cours sons audio).

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Codeurs GSM

passe-haut(>80Hz)

EstimationAR

Prédictionà long terme

Modélisationdu bruit

Paramètres AR

Paramètres b,Q

Index du dictionnaire

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme GSM, FR (Full Rate) (RPE-LTP, Regular Pulse Excitation with Long Term Prediction)

1- Pré-accentuation H(z)=(1-0.86z-1 )2- LPC ordre 8, algorithme de Schur sur N=160échantillons.

Codage des coefficients sur 36bits/fen160ech 1.8kbit/s3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (7+2)bits/fen40ech 1.8kbit/s4- Sous échantillonnage par 3 =>4 signaux de 13 éch. On garde seulement le plus énergétique (2bits). Quantification non uniforme sur 3bits des 13 éch. Quantification non uniforme du facteur d’échelle sur 6bits. Codage (2+3*13+6)bits /fen40ech 9.4kbit/s

13kbit/s

Télécommunications, services & usages

TSI Jean-Marie Gorce

Norme GSM, EFR (Enhanced Full Rate) (CELP Code Excited Linear Prediction)(GSM 06.60 version 6.0.1, release 1997)

http://www.etsi.org/

1- Pré-filtrage (passe-haut, 80Hz)2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons

Codage des coefficients sur 38bits/fen160ech 1.9kbit/s

3- Prédiction à long terme (2 coefs b et Q) sur fenêtres N=40éch. Codage des coefficients (9;6 +4)bits/fen 40ech 2.3kbit/s

4- Dictionnaire à structure algébrique.Codage des coefficients 35 bits/fen 40ech 7 kbit/sCodage du gain statique 5bits/fen 40 ech 1 kbit/s

12.2kbit/s

P:/gorceGSM_juillet2000

Télécommunications, services & usages

TSI Jean-Marie Gorce

2- LPC ordre 10, par fenêtres pondérées, N=160 échantillons

Estimation d ’un modèle AR ordre 10 après fenêtrage WI(n) et WII(n) :- directement modèles pour les sous-fenêtres f2 et f4.

- par interpolation modèles pour les sous-fenêtres f1 et f3.

f1 f2 f3 f4

Télécommunications, services & usages

TSI Jean-Marie Gorce

Codage des coefficients AR (2 vecteurs) sous forme d ’une matrice, pour les 2 fenêtres.(on code ensemble les modèles des 4 sous fenêtres d ’un ‘ frame ’

Rem : on ne code pas directement les coefficients AR, mais des coefficientséquivalents dans un espace fréquentiel équivalent. (LSF, linear spectral frequencies)

Filtre de synthèse quantifié

On obtient en sortie un bruit

zA)z(H

Filtre de blanchiment

Télécommunications, services & usages

TSI Jean-Marie Gorce

2b- filtrage ‘perceptuel’

/zA

)z(A)z(W

|S(z)|

|W(z)|

s(t)

Limiter le bruit de quantification dans les zones fréquentiellesà haute énergie (formants)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Â(z)

Paramètres AR définis pour des fenêtres de 40 éch. (5ms)Â(z)=1+ a1.z-1 + a2.z-2 + …+a10.z-10

s(n)

160 éch.

w’(n)A(z)/A(z/)

Résumé de la phase de prédiction linéaire

Transmission et codage des paramètres d ’une fenêtre sur 2 regroupement par 2 : codage sur 38bits pour 160 échantillons (20ms), de la différence avec les vecteursprécédents.

w(n)

Télécommunications, services & usages

TSI Jean-Marie Gorce

s(n)

w’(n)

Reste une certaine périodicité >>> Prédiction long terme

Télécommunications, services & usages

TSI Jean-Marie Gorce

3- Prédiction à long terme

QLT bz1

1

zB

1)z(H

y(n)=e(n)+b.y(n-Q)

« pitch synthesis filter »

i.e. périodicité de période Q.

FiltrageFiltrage

B(z)w’(n)

160 éch.

w’’(n)

Paramètres b,Q définis pour des fenêtres de 40 éch. B(z)=1-bz-Q

Pour b : 4bits / sous-fenêtrePour Q, codage sur les sous-fenêtres - codage f1 et f3 (9bits x2) - codage de la différence pour f2 et f4 (6bits x2).

Télécommunications, services & usages

TSI Jean-Marie Gorce

4- Codage Par dictionnaire algébrique

Mot Code Impulsions Positions

1 i0, i5 0,5,10,15,20,25,30,35

2 i1, i6 1,6,11,16,21,26,31,36

3 i2, i7 2,7,12,17,22,27,32,37

4 i3, i8 3,8,13,18,23,28,33,38

5 i4, i9 4,9,14,19,24,29,34,39

Dans une fenêtre, codage des 10 / 40 échantillons les plus forts10 ech = 5 mots de 2 impulsions

Télécommunications, services & usages

TSI Jean-Marie Gorce

Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5Codage de l ’erreur W’’(n) par mots codes : c1+c2+c3+c4+c5

Mot Code i : 2 impulsions => - position de chaque impulsion (8 positions) sur 3bits.- signe de la première sur 1 bit (l ’autre signe est déduit).

code Gray 000 001 011 010 110 111 101 100

Code à transmettre : 1 101 0117 bits par mot code => 35 bits / ssfen

Codage d ’un coefficient de gain statique :Codage d ’un coefficient de gain statique :5 bits /ssfenConservation de l ’énergie du signal

Minimisation de l ’erreur de synthèse

Télécommunications, services & usages

TSI Jean-Marie Gorce

En résumé

•Codage de base (PCM) 64kbit/s. qualité téléphonique (pas audio).

•Codage adaptatif différentiel (ADPCM), même qualité à 32kbit/s. Acceptable jusqu’à 16kbit/s.

•Codage vectoriel : regrouper les valeurs à coder pour diminuer la redondance. Autour de 10kbit/s. (militaire : 4.kbit/s).

•Complexité des méthodes hybrides. Augmentation des performances. Codage en sous-bandes???

Télécommunications, services & usages

TSI Jean-Marie Gorce

Traitement de la parole

-Le codage du son-

Télécommunications, services & usages

TSI Jean-Marie Gorce

Compression

Problématique du codage

qualité

débit

complexité coût

Télécommunications, services & usages

TSI Jean-Marie Gorce

A-Qu ’est-ce qu ’un son ?

La parole (cf. cours précédent)

La musique

Les autres sons

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-La parole(résumé)

Propriétés connues :

- fmax=3,4kHz (=> Fe=8kHz)- Processus de formation (formants, pitch, harmoniques)- Modélisation AR performante.- Loi de distribution ~ Laplace (=>A-law, µ-law)

Mise en œuvre de codeurs spécifiques très performants

Objectif :transmission d ’unmessage compréhensibleet reconnaissance du locuteur

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-La musique(naturelle ou synthétique)

1° Les notespitch, fondamental, tonalité…do, re….

0La

440HzLa

220HzLa

110Hzf

même note, octave différente

1 octave = x2

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Les harmoniques

0 5 10 15 20 25-1

0

1

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Le timbre (forme d ’onde; waveform)

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Musique :

- Somme de plusieurs notes (pitch)- Différentes formes d ’ondes (les instruments)+ chant =parole modulée.

IL FAUT COUVRIR TOUT LE SPECTRE AUDIBLE

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Les autres sons

Applications : TVHD, Vidéo, Multimédia ….

Les bruits ambiants, les onomatopées, etc….Bruits sourds (chute d ’eau…)Bruits brusques (bris de glace…)

= transmettre tout ce qui est susceptible d ’être perçupar l ’auditeur.

Télécommunications, services & usages

TSI Jean-Marie Gorce

B-Codage ‘ Audio ’

codeur décodeur

Récepteur

?

Émetteur

N ’autoriser que les pertes non perceptibles

Télécommunications, services & usages

TSI Jean-Marie Gorce

I-Modèle psychoacoustique1° Bande passante : Seuil d’audibilité d’une sinusoïde

BP=[20Hz ; 20kHz] fE>40kHz

Télécommunications, services & usages

TSI Jean-Marie Gorce

3° Masquage fréquentiel

(f1,P1=80 dB) : sinusoïde masquante(f2,P2) : P2 à émettre pour entendre f2

Télécommunications, services & usages

TSI Jean-Marie Gorce

2° Bandes critiques fréquentielles (critical bands)

Détection de f+df ??

10 100 1k 10k

1

10

Bark

f(Hz)

1

600

f

600

flog6fB

2

Passage des Hertz au Bark

Télécommunications, services & usages

TSI Jean-Marie Gorce

Courbes de masquage >> segments de droite indépendante de f1

Télécommunications, services & usages

TSI Jean-Marie Gorce

20 40 60 80 100 120 140 160 180 2000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Exemple de bande critique en BF (120Hz)

f

1 bark

32 bandes critiques de 20 Hz à 20 kHz, f : 80-3500 Hz

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Masquage temporel

Après un son relativement fort, masquage de la bande critique(et voisines…) pendant un certain délai.

Télécommunications, services & usages

TSI Jean-Marie Gorce

4° Masquage fréquentiel et temporel

Télécommunications, services & usages

TSI Jean-Marie Gorce

5° Nouvelle approche de compression :utilisée dans MPEG

Principe : utiliser les propriétés de masquage de certaineszones de fréquence pour réduire le débit nécessaire.

Pertes non perceptibles

Passage dans le domaine de Fourier nécessaire

Codage en sous-bandes

Télécommunications, services & usages

TSI Jean-Marie Gorce

II-norme MPEG Audio

1°) Etat des lieux

Qualité Audio Numérique44.1kHz16bit (96dB relativement au seuil d ’audibilité)loi de distribution inconnue (pas de A-law)stéréo

Débit de 1,4Mbit/s

Télécommunications, services & usages

TSI Jean-Marie Gorce

2°) Objectifs

•Stockage (CD) : morceau de musique de 50 ’1.4Mbit/s*50*60=5.05Gbit=630MO

•Transmission (TVHD, multimedia) : temps réel diminuer le débit pour améliorer les capacités de transmission.

Compression sans pertes audiblesNormalisation nécessaire

Télécommunications, services & usages

TSI Jean-Marie Gorce

3°) MPEG Audio

Moving Pictures Coding Experts Group

Janvier 1988 : naissance, groupe mandaté par ISO/EICMPEG = normalisation vidéo / audio / system

MPEG-1 : qualité VHS sur CD-rom(352x288 + CD audio @ 1.5Mbit/s)

MPEG-2 : TVHS, multimedia ==>TV numérique AAC (fin Avril97) Advanced Audio Coding

MPEG-4 : diminuer le débit; coder infos complémentaires ==>Multimédia

http://drogo.cselt.it/mpeg/

Télécommunications, services & usages

TSI Jean-Marie Gorce

4°) MPEG-1 audio

3 couches définies (qualité/complexité du codage)pour qualité audio :

layer 1 : 384 kb/s 1/4layer 2 : 256…192 kb/s 1/6..1/8layer 3 : 128…112 kb/s 1/10..1/12

Tx de réduction

Mais différentes fréquences d ’échantillonnage et débitsautorisés (32kHz, 44.1kHz, 48kHz)

Télécommunications, services & usages

TSI Jean-Marie Gorce

sound quality bandwidth mode bitrate reduction ratio

telephone sound 2.5 kHz mono 8 kbps * 96:1 better than shortwave 4.5 kHz mono 16 kbps 48:1 better than AM radio 7.5 kHz mono 32 kbps 24:1 similar to FM radio 11 kHz stereo 56...64 kbps 26...24:1 near-CD 15 kHz stereo 96 kbps 16:1 CD >15 kHz stereo 112..128kbps 14..12:1

*) Fraunhofer uses a non-ISO extension of MPEG Layer-3 for enhanced performance ("MPEG 2.5")

From the Fraunhofer Institute for Integrated Circuits, Applied ElectronicsCenter, IIS-A, http://www.iis.fhg.de/about/index.html

Qualité de compression, couche 3

Télécommunications, services & usages

TSI Jean-Marie Gorce

Principe général de MPEG-1 (et suivants)

FiltresDécomposition

en bandes critiques

Allocation desbits (f(²))

Exploitationmasquage

Quantification+-

Codagein

Télécommunications, services & usages

TSI Jean-Marie Gorce

384 ech.

Layer 1 : Masquage fréquentiel + QScalLayer 2 : + Masquage temporelLayer 3 : + Redondance stéréo + Huffman

Télécommunications, services & usages

TSI Jean-Marie Gorce

III-Codage en sous-bandes

1°) Sous-échantillonnage

Télécommunications, services & usages

TSI Jean-Marie Gorce

Spectre d ’un signal échantillonné

Constante, Sinusoïde f0=fE, ou f0=2.fE

f0-fE fEfE/2-fE/2

A

Composante continue ??

Télécommunications, services & usages

TSI Jean-Marie Gorce

Recouvrement spectral

f0-fE fEfE/2-fE/2

A

Sous-échantillonnage

f0-fE fEfE/2-fE/2

A/2

Télécommunications, services & usages

TSI Jean-Marie Gorce

Filtre anti-repliement

f0-fE fEfE/2-fE/2

A/2

fE/4

f0-fE fEfE/2-fE/2

A/2

Télécommunications, services & usages

TSI Jean-Marie Gorce

2°) Décomposition en 2 sous-bandes

f0-fE fEfE/2-fE/2

A

Périodicité!!!

f0-fE fEfE/2-fE/2

A

Télécommunications, services & usages

TSI Jean-Marie Gorce

Représentation des 2 sous-bandes

f0-fE fEfE/2-fE/2

A

f0-fE fEfE/2-fE/2

A

Télécommunications, services & usages

TSI Jean-Marie Gorce

Sous-échantillonnage des 2 sous-bandes

f0-fE fEfE/2-fE/2

A/2

f0-fE fEfE/2-fE/2

A/2

Télécommunications, services & usages

TSI Jean-Marie Gorce

3°) Sur-échantillonnage

f0-fE fEfE/2-fE/2

A

f0-fE fEfE/2-fE/2

A

2.fE-2.fE

Télécommunications, services & usages

TSI Jean-Marie Gorce

dans le domaine temporel

Télécommunications, services & usages

TSI Jean-Marie Gorce

Filtre passe-bas=interpolateur

f0-fE fEfE/2-fE/2

A

2.fE-2.fE

Télécommunications, services & usages

TSI Jean-Marie Gorce

4°) Sous / Sur-échantillonnage d ’un facteur m

H(z) m

m F(z)

x(n)

x’(n)

xSE(n)

xSE(n)

perte d ’information

Télécommunications, services & usages

TSI Jean-Marie Gorce

2

2

Schéma de principe de la décomposition en 2 sous-bandes

H0(z)x(n) x0(n)

H1(z)x1(n)N points

N/2 points

N/2 points

H0 : filtre réel [0; fe/4]H1 : filtre réel [fe/4; fe/2]

Télécommunications, services & usages

TSI Jean-Marie Gorce

5°) Généralisation en N sous-bandes

m

H0(z)x(n) x0(n)

H1(z)x1(n)

N points

N/m points

m

mHm(z)

F0(z) m

F1(z) m

Fm(z) mxm(n)

Télécommunications, services & usages

TSI Jean-Marie Gorce

Télécommunications, services & usages

TSI Jean-Marie Gorce

6°) Les problèmes techniques

1) Le choix des filtres H : parfaits => IIR2) Approximation => choix des filtres F adaptés

(transformée en Cosinus)3) Sélectionner la bonne longueur de vecteur initial4) Nombre de bandes de fréquences

Télécommunications, services & usages

TSI Jean-Marie Gorce

7°) Les progrès MPEG-2, 4

Utiliser le modèle psycho-acoustique pour choisir le nombrede bits par bande de fréquence.

Utiliser une répartition non homogène de l’ échelle des fréquences.

Utiliser la redondance entre voies stéréo (ou 5 voies, surround).

Intégration du codage vectoriel / prédiction linéaire sur lesbandes de fréquences.

Télécommunications, services & usages

TSI Jean-Marie Gorce

IV-ConclusionCodageaudio

(musique)

Codageparole

(téléphonie)full-duplex

Un bon codeur = répondre à des contraintes spécifiquesau plus près.

Interactions entre vectoriel / sous-bandes