Enseignante : Cléo BARAS, [email protected] ENSIMAG …cleo.baras/mes_images/... · 2010....

Introduction

Multimédia : de la compression au tatouage

Enseignante : Cléo BARAS, [email protected]

ENSIMAGAnnée universitaire 2010-2011

1 / 207


mailto:[email protected]

Introduction

Planning du cours Multimédia14h-17h salle Contenu IntervenantCours-TD H204 Bases de traitement

d’imagesJ. CHANUSSOT

Cours-TD H202 Compression : Généralités,codage sans pertes

C. BARAS

Cours-TD H202 Compression : Codage avecperte

C. BARAS

Cours H202 Compression audio C. BARASTP E301 Compression audio C. BARASCours H202 Compression d’images J. CHANUSSOTTP E301 Compression d’images J. CHANUSSOTCours H202 Compression vidéo J. CHANUSSOTCours-TD H202 Indexation d’image N. LE GUYADERTP E301 Compression vidéo J. CHANUSSOTCours H202 Tatouage C. BARASTP E301 Tatouage C. BARAS

2 / 207


Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec

Première partie I

Généralités

2 Définition de la compression

3 Normalisation

4 Besoins actuels (l’exemple de l’audio)

5 Architecture d’un codec

3 / 207



La compression, intuitivement ...

Qui ?

Audio, vidéo, fichiers binaires, ...

Comment ?

Changement de format avec suppression de la redondance(répétition), conservation de l’information pertinente (perçue)

Pourquoi ?

Diminution de l’espace de stockage, ...

4 / 207



La compression, intuitivement ...

Qui ?Audio, vidéo, fichiers binaires, ...

Comment ?Changement de format avec suppression de la redondance(répétition), conservation de l’information pertinente (perçue)

Pourquoi ?Diminution de l’espace de stockage, ...

4 / 207



Cible de la compression

Definition (Cible : le Multimédia)

Tout signal (fichier) numérique, l’acquisition par CAN a impliquant unéchantillonnage et une quantification n’étant pas prise en comptedans ce cours

a. Convertisseur Analogique Numérique

Example

Parole, musique, images fixes (dont satellitaires, médicales), vidéo,texte, fichiers binaires ...

5 / 207



Objectifs de la compression

1 Augmenter l’efficacité du stockage sur support dédié (DVD 1, Super Audio CD)ou sur mémoires (clés USB, IPod, ...)

Example (Quelques codecs)

Audio : PCM (12 titres sur un CD de 700 Mo)→ MP3 3 (12 titres à 256 kbit/s sur70 Mo)

Vidéo : DVD MPEG-2 (1 vidéo de 720*576 sur 4, 7 Go)→ DivX (1 vidéo sur 700Mo)

Radiographie : SPIHT-3D ()

a. Digital Versatile Discb. Moving Picture Experts Groupc. MPEG 2 1 Layer 3

6 / 207




2 Augmenter l’efficacité de la transmission sur canal de diffusion (TV/radio nu-mérique) ou de communications (téléphonie, visiophonie sur réseaux RTC 1,RNIS 2, IP 3, GSM 4)

Example (Parole sur réseau GSM)

Débit source (après échantillonnage à 8kHz) : 8.103 ∗ 16 ∗ 1 = 128 kbits/s

Débit canal “radio mobile” GSM a : 13.2 kbits/s

a. Communication - Codeur de parole RTE-LTP

a. Réseau Téléphonique Commuté, liaison 2 Mbit/sb. Réseau Numérique à Intégration de Services, liaison 2 Mbit/sc. Internet Protocold. Global System of Mobile, liaison 9, 6 kbit/s

6 / 207




3 Profiter des avantages de la communication numérique : fiabilité, contrôle,cryptage...

4 Améliorer la description d’un signal pour augmenter l’efficacité d’un traitementaval (reconnaissance par exemple)

6 / 207



Sources de redondance dans un signalnumérique

1 Redondance du signal, "‘de sens"’→ Traitement du signal (propre à lanature du signal)

Example

Linguistique : "‘Je monte en haut"’, "‘Après la pluie, vient le beau temps"’ ;message systématique n’apportant pas d’information

Audio : un la3 de diapason, sinusoïde de fréquence 440Hz, joué pendant 10s ;prédictibilité temporelle mesurable par corrélation

2 Redondance de codage, "‘d’écriture"’

ExampleAlphabet phonétique : (alpha) (tango) (charlie)Alphabet latin : a t c

⇒ Mesure de la quantité d’informations dans un signal et dans uncode

7 / 207



Définition de la compression

Definition (Compresser c’est :)

1 Rechercher l’efficacité maximum (de moindre redondance) dans lareprésentation de l’information utile portée par les signaux

2 Coder : Convertir le signal en une représentation numérique efficace(séquence binaire la plus économique possible), le flux codé(bitstream)

⇒ Un problème d’optimisation sous contraintes qui aboutit à unsystème de compression

8 / 207



Système de compression

(En)codeurSignal x(n)

(.wav)Flux codé bi

(.mp3)

Décodeur SortieSignal x(n)

(.wav)

Stockage ou canal Lecteur

Vocabulaire

Flux codé (bitstream) = Représentation du signal compressé

Codec = { encodeur + décodeur }

9 / 207



Critères en jeu

Definition (Débit et Taux de compression)

Débit : Ressource binaire (nombre de bits) utilisée pour coder 1s designal

Taux de compression : rapport de débits sans et avec compression

Definition (Qualité)

Qualité perçue du signal restitué par rapport au signal original,évaluée par des mesures :

des distorsions/dégradations

du "‘bruit de codage"’ (différence entre le signal original et le signalcompressé)

pour statuer sur la transparence du codec et sur le confort del’utilisateur.

10 / 207



Critères en jeu

Definition (Complexité)

Sophistication de l’algorithme, incluant :la charge de calcul par unité de temps : faisabilité du temps-réel,puissance du microprocesseur

l’occupation des mémoires du système : capacité des mémoires

retard algorithmique ou délai de restitution dû aux calculs : faisabilité dutemps-réel

10 / 207



Compromis en compression

Complexité

Qualité

DébitUn système est optimal :

s’il maximise la qualité pour undébit donné

s’il minimise le débit pour unequalité donné

Complexité au 3ème plan

11 / 207



Classes applicatives

Definition (Compression sans perte (noiseless coding))

Compression réversible (permettant la reconstruction du signaloriginal à l’identique)

Example

Imagerie médicale pour diagnostic

Mélomane : FLAC

12 / 207



Classes applicatives

Definition (Compression avec pertes (noisy coding))

Compression irréversible avec élimination de l’information « inutile »au prix de l’introduction de dégradations (ne permettant pas dereconstruire le signal d’origine à l’identique)

Example

audio ( 44,1.103 ∗ 16 ∗ 2 ≈ 1.4 Mbit/s) sur réseau GSM (13.2 kbit/s)pour reconnaissance automatique de morceaux (Shazam sur iPhone)

12 / 207



Normalisation

Definition (Norme (industrielle))

Référentiel commun et documenté destiné à harmoniser l’activitéd’un secteur, ayant un nombre suffisant d’applications potentielles

Le processus de normalisation

1 Groupe de travail, experts de la recherche et de l’industrie2 Identification des besoins3 Propositions avec sélection de la plus prometteuse (performante,

consensuelle) qui est implémentée puis distribuée librement4 Critique et amélioration progressive5 Rédaction du standard

13 / 207



Normalisation

Dans le cas de la compression, la norme inclut :1 La syntaxe du bitstream (en-tête, format des frames)2 Structure du codec pour une application donnée (blocs fonctionnels et

spécifications) : Fonctionnement du décodeur + Une propositiond’encodeur a

3 Structure du système réalisant la mise en forme complète, l’accès et letransport des données (synchronisation, multiplexage de flux audio etvidéo, correction d’erreurs...)

4 Protocoles de tests des systèmes5 Software / code source

a. non figé, pouvant être modifié tant qu’il respecte la syntaxe du bitstream

13 / 207



Nécessités de la normalisation

Commercialement : Assurer l’interopérabilité entre unemultitude de produits propriétaires

Incompatibilités entre produits & décodeurs propriétaires (spécifiques àl’application)

Recours au transcodage a, mais au prix d’une complexitésupplémentaire et de dégradations de qualité

a. Transformation d’un bitstream en un autre sans décodage/reencodage

Example (Stockage)

AC3, Dolby - ATRAC, Mini-Disc Sony

Example (Streaming)

Real Audio, Real Networks - Microsoft, Windows media

14 / 207



Nécessités de la normalisation

Scientifiquement : Classifier et valider les algorithmesperformants

Repères pour les industriels et la recherche

Consensus entre industriels

14 / 207



Quelques organismes de standardisation

1 UIT-T 1 :Parole en bande téléphonique sur réseaux fixes + paquetsTéléphonie, visiophonie, VoIP

2 ISO-IEC 2 :Musique en bande Hi-FiBaladeurs, DVD, TNT, streaming, brodcasting, Digital Radio MondialeImage fixe, vidéo

3 Organismes militaires : INMARSAT 3, OTAN 4

Transmissions (data ou parole) par satellitesCommunications militaires

1. Union Internationale des Télécommunications2. International Standardization Organization3. INternational MARitime SATellite organization4. Organisation du traité de l’Atlantique Nord

15 / 207



L’existant en audio

Qualité Parole MusiqueBande télé-phonique

Bandeélargie

Bande FM Sons HiFi Multipiste

Débit (kb/s) (< 4 kHz) (< 7 kHz) (< 15 kHz) (< 22 kHz) (< 24kHz)

≥ 512256 MPEG128 MUSICAM64 G.711

(PCM)G.722 (SB-ADPCM)

SB+MPA

32 G.721(ADPCM)

G.722.1

16 G.728 (LD-CELP)

8 G.729(A-CELP)

4≤ 2

16 / 207



Poursuivre l’effort en compression

les données sont de plus en plus riches (vidéophonie, TVHD...)

le nombre des utilisateurs augmente

le coût a toujours intérêt à être réduit (fibre optique chère)

la capacité du canal radio reste limitée (d’où le regain d’intérêtconsidérable pour la compression de parole avec l’essor de latéléphonie mobile, et les travaux en TVHD)

le codage peut « rattraper » les supports : un film sur un CD audio (700Mo) avec MPEG4

17 / 207



Architecture globale d’un système decompression

Quantification CodagebinaireTransformation

T Q C

CODEUR

Transformationinverse binaire

DécodageQuantificationinverse

C−1Q−1T −1

DÉCODEUR

Transmission ou stockage

Flux codébi

Signal

x(n)

Signaldécodé

x(n)

Blocs imbriqués de manière plus ou moins complexe

T linéaire / non-linéaire, analogique / numérique (avec CAN/CNA) et denature physique variée

18 / 207


Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable

Deuxième partie II

Outils pour la compression : lecodage sans perte

Objectif : Trouver le code binaire le plus efficace possible pourreprésenter un signal discrétisé sans perte de qualité6 Éléments de théorie de l’information7 Codage à longueur fixe8 Mesure de l’information : l’entropie9 Codage à longueur variable

Méthodes statistiquesShannon - FanoAlgorithme de Huffman

Méthodes arithmétiques : codage arithmétiqueMéthodes canoniques : RLEMéthodes avec dictionnaire : LZW

19 / 207



Rappel de théorie de l’information

Definition (Source d’information simple, alphabet)

On suppose qu’un signal est la suite de N réalisations d’une variablealéatoire discrète X , appelée source d’information simple (sansmémoire).X prend ses valeurs dans un alphabet A = {x0, x1, x2, ..., xS−1} de Ssymboles et suit une certaine loi de probabilité imposant{pi = pX (xi ) = Prob(X = xi ),∀i = 0..S − 1}.

Remarque : La loi de probabilité indique la fréquence d’apparition dusymbole xi dans le signal, i.e. le rapport entre le nombre d’occurrencesde xi dans le signal et le nombre N de symboles dans le signal.

20 / 207



Rappel de théorie de l’information

Example (Texte)

Message = "‘Bonjour"’7 réalisations de X dans A = alphabet latin (avec S = 128)

Example (Pile/Face)

Message = "‘PFPFFPF"’7 réalisations de X dans A = {P,F} (avec S = 2) de loi deprobabilité uniforme

Example (1s de signal audio (.wav) a)

a. discrétisé sur 16 bits et avec Fe = 44.1 kHz

Signal = "‘-1 ; 32000 ; 45 ; 3 ; -55 ; ..."’44100 réalisations de X dans A = [−215; 215 − 1] (avec S = 216) deloi de probabilité Laplacienne

20 / 207



Codage sans perte ou entropique

Definition (Codage sans perte ou entropique d’une source X )

Le codage d’une source X est une application (bijective) qui, àchaque symbole xi pris par X dans l’alphabet A, associe un mot decode binaire a ci de longueur li :{

A 7→ Cxi → ci

a. généralisable à n’importe quel alphabet adapté au canal ou au support de sto-ckage

Contrainte : un code uniquement décodable vérifiant lacondition du préfixe

Aucun mot du code ne doit être un préfixe d’un autre mot du code a

a. pour éviter d’introduire des séparateurs entre mots de code pour le décodage

21 / 207



Codage à longueur fixe : le BCD

Definition (Binary coded decimal (BCD))

Chaque symbole xi est codé (indépendamment de la loi deprobabilité de X ) par la représentation bJ−1...b0 de son indice i en

base 2 sur L =⌈

log2(S)⌉

bits, avec : i =L−1∑j=0

bj2j .

Example (Alphabet à S = 8 symboles)

xi x0 x1 x2 x3 x4 x5 x6 x7b2b1b0 000 001 010 011 100 101 110 111

Performances

Lmoy = dlog2(S)eCodage optimal lorsque S est une puissance de 2 (Lmoy = log2(S)) et laloi de probabilité de X est uniforme (symboles équiprobables)

22 / 207



Un exemple de codes

Code 1 : x0 x1 x2 x300 01 10 11 Code 2 : x0 x1 x2 x3

0 10 110 111

Example (X : Loi uniforme)

Message x0 x2 x1 x2 x3 ...Message codé avec code 1 00 10 01 10 11 ...Message codé avec code 2 0 110 10 110 111 ...

23 / 207



Un exemple de codes

Code 1 : x0 x1 x2 x300 01 10 11 Code 2 : x0 x1 x2 x3

0 10 110 111

Example (X : Loi non uniforme avec p0 =34

et p1,2,3 =1

12)

Message x0 x2 x0 x0 x3 ...Message codé avec code 1 00 10 00 00 11 ...Message codé avec code 2 0 110 0 0 111 ...

Plus un symbole est probable, plus il y a d’intérêt à le coder avec peude bits⇒ il apporte peu d’information

23 / 207



Information propre

Definition (Information propre d’un symbole xi )

Quantité d’information amenée par l’apparition du symbole xi :

I(xi ) = − log2(pi)

bit/symbole

Plus un symbole est probable, moins il amène d’information, cad plusle nombre de bit qui l’encode peut être petit

24 / 207



Entropie

Definition (Entropie d’une source X )

Quantité d’information moyenne de la source :

H(X ) =S−1∑i=0

pi I(xi ) = −S−1∑i=0

pi log2(pi)

bit/symbole

H(X ) = Limite inférieure du nombre moyen de bits nécessaires aucodage d’un signal, appelée OPTA a

a. Optimum Performance Theoretically Attainable

25 / 207



Source binaire sans mémoire

Example (Deux symboles x0 et x1 de probabilités respectives p et1− p)

H(X ) = −p log2(p)− (1− p) log2(1− p)

26 / 207



Codage à longueur variableObjectif : Répartir la ressource binaire pour coder la source X

1 en prenant en compte de la loi de probabilité des symboles xi

2 en autorisant des mots de code de longueur variable

3 en minimisant la longueur moyenne des mots du code : Lmoy =S−1∑i=0

pi li

voire en atteignant la limite donnée par l’entropie : Lmoy −→ Lopt = H(X )

4 et en assurant la réversibilité du codage (conditon du préfixe)

Theorem (Codage d’une source discrète sans mémoire)

Un tel code existe et H(X ) ≤ Lmoy ≤ H(X ) + 1.

Definition (Facteur de compression d’un code entropique)

τ =Lmoy

dlog2(L)e≈ Taille du fichier compressé

Taille du fichier non compressé

27 / 207



Algorithme de Shannon - Fano

Principe : Construction itérative d’un arbre de codage

1 Symboles triés en fonction de leur probabilité d’apparition encommençant par les + fréquents

2 Division en deux sous-ensembles de probabilités d’apparitions cumulésles plus proches possibles

3 Affection du ’0’ à la première a et du ’1’ à la seconde4 Itération sur les deux sous-ensembles jusqu’à ce que chaque symbole

soit devenu une feuille de l’arbre

a. Gain de puissance à l’émission

28 / 207



Exemple

Example (Source X dans A = {a,b, c,d ,e} de probabilitésd’apparition : )

xi a b c d epi 0.19 0.17 0.14 0.39 0.11

1 Construction du code2 Codage du message "‘aeddcadb"’3 Decodage du message "‘"’4 Estimation du taux de compression5 Conclusion

29 / 207



Performances

1 Codage sous-optimal mais garantissant que les longueurs des mots decode sont à 1 bit de leur idéal théorique (information propre I(xi ))

2 Sa mise en oeuvre nécessite :un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesune table de transcodage connue du récepteur pour le décodage (decomplexité croissante avec la taille de l’alphabet)cette table peut varier d’un signal à l’autre

30 / 207



Algorithme de Huffman

Principe : Construction progressive d’un arbre en partant desnoeuds terminaux

1 Partant de la liste de symboles {x0, ..., xS−1} et de la liste de leurprobabilité d’apparition {p0, ..., pS−1}

2 on sélectionne les deux symboles les moins probables pour créer deuxbranches dans l’arbre que l’on étiquette par les bits ’0’ et ’1’.

3 On actualise les deux listes en rassemblant les deux symboles utilisésen un super-symbole dont on calcule la probabilité d’apparitioncumulée (somme des probabilités des deux symboles sélectionnés).

4 On recommence les deux étapes précédentes tant qu’il reste plus d’unsymbole dans la liste.

5 Les mots de code sont lus en parcourant l’arbre en sens inverse.

31 / 207



Exemple


xi a b c d epi 0.19 0.17 0.14 0.39 0.11


32 / 207



Performances

1 Codage optimal parmi les codes vérifiant la condition du préfixe maisimpose le codage d’un symbole sur un nombre de bits entier

2 Sa mise en oeuvre nécessite là encore :un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesune table de transcodage connue du récepteur pour le décodage et quipeut varier d’un signal à l’autre

33 / 207



Codage arithmétique

Codage (non plus symbole après l’autre) mais d’une suite desymboles ± longue puisque qu’une suite de symboles est remplacéepar un réel r ∈ [0; 1[ lui-même codé en binaire (en fonction descapacités de codage de la machine).

Principe pour coder une suite de symboles x(1), x(2), x(3), ...

1 Partitionnement de l’intervalle [0; 1[ en S sous-intervalles chacun affectéau symbole xi de A et dont la longueur est proportionnelle à pi

2 Sélection du sous-intervalle associé à la valeur de x(1)

3 Itération du partitionnement du sous-intervalle sélectionné pour lecodage du symbole x(2) suivant ; etc... On aboutit finalement à unintervalle [a; b[.

4 Choix du réel r ∈ [a; b[ codable en virgule fixe a, i.e. r =M∑

i=1

bi2−i , avec

les M bits mis à disposition par la machine

a. ou flottante suivant l’architecture des machines34 / 207



Exemple


xi a b c d epi 0.19 0.17 0.14 0.39 0.11


35 / 207



Performance

Codage plus performant que Huffman (sauf si les poids desfeuilles/noeuds/racines sont des puissances de 2) ; mais

introduit des retards au décodage, puisqu’on ne peut pas commencer àdécoder tant que la séquence codée n’a été entièrement reçue

Dépendant de l’architecture matériel du codecSa mise en oeuvre nécessite :

un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesd’envoyer la densité de probabilité au récepteur à moins d’utiliser uneestimation adaptative des probabilités d’apparition des symboles (codagearithmétique adaptatif avec intervalle variant au fur et à mesure del’actualisation des probabilités d’apparition)

36 / 207



Codage par plage / Run-length encoding(RLE)

Adéquate pour de longues suites de symboles de même valeur

Principe

Remplacer chaque suite de symbole xia par le couple (ni , xi )

b où ni estle nombre d’occurrence du symbole

Le couple peut être codé en ASCII ou avec un codage de Huffmanaprès recensement de tous les couples possibles

a. passage ou runb. paquet RLE = (compteur de passage ou run count, valeur de passage)

37 / 207



Performances

Performances correctes pour des sources binaires ;

Dans le cas des images, est appliqué par plans de bits

Adapté au contenu répétitif

38 / 207



Lempel-Ziv-Welch (LZW) (1/4)

Codage (non pas de symboles individuels mais) de suites decaractères

Principe : Construction dynamique d’une table de traduction,initialisée avec les caractères de l’alphabet

Chaque nouvelle chaine rencontrée est stockée dans le tableau à lapremière adresse disponible a, et est codée par l’adresse a

39 / 207



Encodeur

1

2

3

4

dans la table ?Chaine+c existe

Initialisationtable de traduction

Chaine = c

c = lire_car_suivant()

c = premier caractère à coder

NON

OUI

Chaine = Chaine + c

Code en sortie = adresse_de( Chaine )*1ère_adresse_libre = Chaine + c

ContenusAdresses

000001002

0FF100101102

FFF

...

...

000102

FF

Chaine“ 1\n 1\n 1A” = ’20 31 0A 20 31 0A 20 41’

40 / 207



Decodeur

Initialisationtable de traduction

Sortie← Chaine

Sortie← Chaine

Code = lire_code_suivant()

Chaine_prcdte = Chaine_crnte

Chaine_crnte = *Code

Chaine_crnte = *CodeCode = lire_code_suivant()

c = 1er_car( Chaine_crnte )*1er_adresse_libre = Chaine_prcdte + c

Chaine_prcdte = Chaine_crnte

ContenusAdresses

000001002

0FF100101102

FFF

...

...

000102

FF

Code’020 031 00A 100 102’

41 / 207



Performances

Mise en oeuvre en pratique avec des adresses codées sur 12 bits etavec un bouclage sur la table en cas de dépassement

Codec rapide à implémenter mais non optimal

Taux de compression d’autant plus faible que les séquences decaractères répétées sont longues

Décodage avec 1 caractère de retard

42 / 207



Conclusion sur le codage sans perte

Pour une source x prenant un nombre fini de valeurs/symboles, un code(sans perte) optimal peut être conçu pour la représenter

Le code est optimal (efficacité maximum dans l’utilisation des mots decode et de la ressource binaire) lorsque la loi d’apparition des symbolesde la source est uniforme

43 / 207


Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion

Troisième partie III

Outils pour la compression : lecodage avec pertes : la

quantification10 Définitions

QuantificationBruit de quantification

11 Quantification scalaireQuantification Scalaire Uniforme (QSU)Quantification Scalaire Non Uniforme (QSNU)

12 Quantification vectorielle13 Prédiction linéaire14 Conclusion

44 / 207



Rappel : système de compression

Quantification CodagebinaireTransformation

T Q C

CODEUR

Transformationinverse binaire

DécodageQuantificationinverse

C−1Q−1T −1

DÉCODEUR

Transmission ou stockage

Flux codébi

Signal

x(n)

Signaldécodé

x(n)

45 / 207



Première approche de la quantification

Dynamique de x Quantifieur

min = −2

max = 2

-1.5

-0.5

0.5

1.5

x= Q(x)

Symboles

0

1

2

3

BCD

00

01

10

11

→ Bitstream

46 / 207



Première approche de la quantification

Dynamique de x Quantifieur

min = −2

max = 2

-1.5

-0.5

0.5

1.5x

= Q(x)

Symboles

0

1

2

3

BCD

00

01

10

11

→ Bitstream

46 / 207



Objectif de la quantification

Objectif : Partant d’une source x pouvant prendre une infinité de valeur,l’arrondir à un nombre fini de valeurs formant les symboles d’un codesans perte

Les symboles doivent permettre la mise en place d’un code sans pertele plus efficace possible (idéalement un code optimal)

L’arrondi doit introduire le moins d’erreurs possibles

Le code (quel qu’il soit) étant sans perte, on pourra s’interésseruniquement au phénomène d’arrondi

Problématique : Quels représentants choisir, quel arrondi choisir dèslors que la statistique de la source est prise en compe ?

47 / 207



Définition de la quantification Q

xQ

Trouver le plusproche voisin

Indice iQ−1

Recherche dansle dictionnaire

xi

D = {x0, x1, ..., xN−1} D = {x0, x1, ..., xN−1}

Definition (Quantification Q + Q−1)

Application faisant correspondre à tout x ∈ E la valeur xi la plusproche (au sens d’une certaine distance) parmi un ensemble fini Dde N valeurs :

Q(x) : ∀i , si x ∈ xi , x 7→ xi avec xi ∈ xi

48 / 207



Définitions et vocabulaireVocabulaire

Q : quantification scalaire

xi : niveaux de qunatification

xi = {x/Q(x) = xi} : intervalles a de quantification

P = {xi}i=0..N−1 : partition, découpage de l’espace des valeurs enintervalles/zones de quantif.

D = {xi}i=0..N−1 : dictionnaire

a. en pratique, ce sont toujours des segments sur la droite des réels bornés par lesseuils de quantif.

Definition (Résolution d’un quantifieur)

La résolution d’un quantifieur est R = dlog2(N)e, le nombre de bitsnécessaire au codage BCD sans perte des xi

a

a. autrement dit l’optimum si la loi d’apparition des xi est uniforme

49 / 207



Propriétés

Q est une application surjective donc non inversible ; elle introduit deserreurs de représentations du signal mais permet la réduction de laressource binaire (comme recherchée)

Q est une opération non linéaire, donc ses effets ne peuvent êtremodélisés que statistiquement

50 / 207



Bruit/erreur de quantification

Hypothèse : Le signal x est la réalisation d’un processus aléatoire Xde Densité de Probabilité (DDP) pX (estimée au besoin par unhistogramme)

Definition (Erreur de quantification q)

q = x −Q(x) = x − xi où xi = Q(x)

La quantification étant non linéaire, l’erreur de quantification ne peutêtre "‘caractérisée"’ qu’en moyenne.

51 / 207



Mesures de distorsions : la distorsionmoyenne

Definition (Distorsion moyenne a)

a. au sens de la DDP de x i.e. la loi de répartition des valeurs prises par x

D =

∫ +∞

−∞d(x ,Q(x)

)pX (x)dx

avec d(., .) une distance mesurant la distorsion locale entre x et Q(x)

Example (Distance)

euclidienne

perceptuelle, ...

52 / 207



EQM et RSBDefinition (Erreur Quadratique Moyenne (EQM) a)

a. Mean Square Error (MSE) , cas particulier courant de la distorsion moyenne

EQM =

∫ +∞

−∞

(x −Q(x)

)2pX (x)dx =

∫ +∞

−∞q2pX (x)dx i.e. la variance

statistique (puissance) de l’erreur de quantif σ2q

Definition (Rapport Signal-sur-Bruit (RSB) a)

a. Signal-to-Noise Ratio (SNR)

RSBdB = 10 log10

(σ2

Xσ2

q

)dB

Avantages : simplicité, résultats analytiques, sens physique, estimation(en pratique) aisée par moyennage sur M échantillonsInconvénients : n’est pas forcément corrélé avec la perception mais sertde fondement pour des mesures « perceptives » plus élaborées

53 / 207



Quantification Scalaire Uniforme (QSU)

QSU = QS la plus simple

Très largement employée notamment dans les CANDite uniforme car les représentants sont

équi-répartis sur une échelle linéaireà une distance ∆ (constante), appelée pas de quantification, les uns desautresles centres de N = 2R intervalles de même longueur ∆

Definition (QSU dans la zone de linéarité)

Q(x) =[x − δ

∆

]∆ + δ

avec[]

l’opérateur d’arrondi, ∆ = 2AN et δ un paramètre de décalage

des représentants sur l’axe

54 / 207



Graphe de la QSU (pour N = 8 et R = 3)

Quantifieur

−A

A

0

x0

x1

x2x2

x3

x4

x5

x6

x7∆

x

y = x

Q(x)

Zone de linéarité Saturation

55 / 207



La Quantification Scalaire (QS) : un exemple

Scalaire→ Traitement échantillon par échantillon à la cadence Fe

Résolution R = nombre de bits/échantillons nécessaire pour coder(réversiblement) en BCD les valeurs quantifiées des échantillons

Débit final RFe (en bits/s)

Comment choisir les paramètres du quantifieur pour minimiser le débittout en minimisant les erreurs ?

56 / 207



Performances

Paramètres

Dynamique du quantifieur A

Pas de quantification : ∆ =2AN

Zones de fonctionnement

2 zones de fonctionnement : linéaire + de saturation/dépassement,engendrant 2 types de bruit

1 zone morte, intervalle associé au représentant 0 permettant de ne pasreprésenter les composantes de faible puissance

Des compromis à faire :L’erreur de quantification est d’autant plus petite que ∆ est petit, mais-dans ce cas- que N (donc R) grand, à moins de diminuer A...

57 / 207



Bruit de dépassement d’une QSU

Definition (Bruit de dépassement)

Erreur/bruit de quantification occasionné par la troncature du signal xlorsque celui-ci tombe dans la zone de dépassement, c’est à direlorsque |x | > A

Augmente linéairement avec x et s’active en fonction de A

Très mal toléré d’un point de vue perceptif ! !

Approximation pour une source X ∼ U([−Xmax ; Xmax ])

σ2q ≈ 2

∫ +∞

Aq2pX (x)dx ≈ (Xmax − A)3

3Xmax

58 / 207



Bruit de dépassement d’une QSU

Paramétrage de A

A doit être dimensionné en fonction de la dynamique de x pour éviterles erreurs (trop importantes) de la zone de saturationEn pratique,

pour une source uniforme X ∼ U([−Xmax ; Xmax ]), A = Xmax

pour tout autre source (gaussienne, laplacienne), réglés via le facteur

d’échelle γ (typiquement entre 2 et 4) avec γ =Aσx

et

σ2X = E [x2] =

∫ +∞

−∞x2pX (x)dx

58 / 207



Bruit de quantification d’une QSU

Hypothèses de calcul : Contexte Haute Résolution (HR)

La source x suit une DDP pX (x) concentrée dans [−A; A] donc le bruitde dépassement puisse être négligé

La résolution R (donc le nombre de niveaux de quantification N)suffisamment élevée pour supposer que pX (x) est suffisamment lisse(≈ constante) dans chaque intervalle avec∫ +∞

−∞pX (x)dx =

N−1∑i=0

pX (xi )∆ = 1

Remarque : permet de dériver des résultats théoriques alors qu’enpratique on ne peut approcher les moments que par des estimationssur un grand nombre de données (ex : moyenne probabiliste avec

∫→ moyenne statistique 1

M

∑M ).

59 / 207



Cas optimal d’une source uniformémentrépartie

X ∼ U([−A; A]) donc sous hypothèse HR, q est uniformément répartientre et dans tous les intervalles xi donc entre −∆

2 et + ∆2

Variance/Puissance du bruit

σ2q =

∫ +∞

−∞q2pX (x)dx =

∫ + ∆2

−∆2

q2 1∆

dq =∆2

12=

A2

32−2R = σ2

x 2−2R

Rapport Signal sur Bruit (RSB) : Règle des 6 dB par bit

RSBdB = 10 log10(σ2

x

σ2q

)= 6,02R

A ↓ ⇔ EQM ↑ mais attention au bruit de dépassement ! En pratique, ilfaut tenir compte de la dynamique de xExemple : données audio sur 16 bits, RSB ≈ 96 dB

60 / 207



Cas le moins favorable d’une sourcegaussienne

X ∼ N (0, σ2x ) avec pX (x) =

1√2πσ2

x

exp(− x2

2σ2X

)Theorem (Formule de Bennett pour une source quelconque)

σ2q =

112

(∫ +∞

−∞(pX (x))1/3dx

)3

2−2R

Variance/Puissance du bruit et Rapport Signal sur Bruit (RSB) :Règle des 6 dB par bit

σ2q =

√3

2σ2

X 2−2R et RSBdB = 6,02R − 4,35

61 / 207



RSB d’une QSU

Pour toute autre distribution, la puissance de l’erreur est toujourscomprise entre les 2 valeurs précédentes

62 / 207



Quantification Scalaire Non Uniforme(QSNU)

Hypothèse : X suit une loi non uniforme 5

Objectif : tenir compte de la répartition statistique des valeurs de x pourrendre l’allocation de la ressource binaire plus efficace

Principes similaires au codage entropique : pour diminuer la distorsionD, on alloue plus de précisions (plus de représentants) aux valeurs dusignal les plus fréquentes

Intervalles de quantification de longueur variable (d’autant plus petiteque pX (x) est grande)

Représentants pas forcément au centre des intervalles

5. gaussienne pour de la musique, laplacienne pour de la parole

63 / 207



Un exemple

64 / 207



Schéma équivalent de la QSNU

T = transformation non-linéaire (dépendant de la DDP du signal) +QSU

Example (Standard US en téléphonie fixe (G.711) avec Fe = 8kHz, R = 8 bits, débit de 64 kbits/s)

T (x) = Vln(1 + µ|x |/A)

ln(1 + µ)sgn(x), pour |x | ≤ A

et µ = 255, réglé pour optimiser le RSB par rapport à la dynamiquedes signaux de parole

65 / 207



Quantificateur optimal pour la QSNU

Definition (Quantificateur optimal)

Le quantifieur défini par1 le dictionnaire D et donc ses représentants {xi}i=0..N−1

2 la partition P = {xi}i=0..N−1

qui minimise EQM =

∫ +∞

−∞

(x −Q(x)

)2pX (x)dx , pour une DDP pX (x)

donnée et une résolution R = dlog2(N)e fixée

66 / 207



Une solution : l’algorithme de Llyod-Max

Principe : Deux conditions nécessaires d’optimalité

en séparantl’encodeur qui est défini par la partition P = {xi}i=0..N−1

le décodeur qui est défini par le dictionnaire D = {xi}i=0..N−1

67 / 207



Une solution : l’algorithme de Llyod-Max

Principe : Deux conditions nécessaires d’optimalité

1 Pour un dictionnaire D = {xi}i=0..N−1 donné, la meilleure partition estdonnée par la condition des plus proches voisins :

∀i = 0..N − 1, xi = {x/∀j = 0..N − 1, (x − xi )2 ≤ (x − xj )

2}

2 Pour une partition P = {xi}i=0..N−1 fixée, le meilleur dictionnaire estdonné par la condition des centroïdes (barycentres au sens depX (x)) :

∀i = 0..N − 1, xi = E [x |x ∈ xi ] =

∫x∈xi

xpX (x)dx∫x∈xi

pX (x)dx

67 / 207



Mise en oeuvreEn pratique,

Utilisation d’une large base de données empiriques (taille M >> N pourbien représenter pX (x))

Construction itérative du quantificateur en alternant sur les deuxconditions d’optimalité

Algorithme

1 Partant d’un dictionnaire initial,2 construction d’une partition optimale en réaffectant les données aux

centroïdes suivant les plus proches voisins3 Construction de nouveaux centroïdes par calcul des moyennes des

données de chaque classe4 Calcul de l’EQM (qui diminue) puis itération à l’étape 25 L’algorithme s’arrête lorsque l’EQM n’évolue plus ou que la diminution

relative est inférieure à un seuil faible

68 / 207



Mise en oeuvre en 1D : InitialisationX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits

69 / 207



Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits

70 / 207




71 / 207




72 / 207




73 / 207




74 / 207




75 / 207




76 / 207




77 / 207




78 / 207




79 / 207




80 / 207




81 / 207




82 / 207




83 / 207




84 / 207




85 / 207




86 / 207




87 / 207



Mise en oeuvre en 1D : FinX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits

88 / 207



Mise en oeuvre en 1D : InitialisationsX ∼ N (0, σ2

x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

89 / 207



Mise en oeuvre en 1DX ∼ N (0, σ2

x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

90 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

91 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

92 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

93 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

94 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

95 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

96 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

97 / 207




x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

98 / 207



Mise en oeuvre en 1D : FinX ∼ N (0, σ2

x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits

99 / 207



Performances

« Mise en forme » du quantificateur selon pX (x) sans estimationexplicite de pX (x), mais seulement à partir d’un large échantillon devaleurs de la source X !

Le quantificateur pas forcément optimal mais performant pour denombreuses applications car l’EQM présente des minimum locaux (cvpas forcément vers le minima global)

Possibilité de le généraliser à d’autres distances d en réecrivant lesconditions d’optimalité

Peut-être rendu adaptatif en fonction des statistiques à moyen terme dex(n)

Conditions d’optimalité pour une distance d quelconque

Plus proches voisins : Ci = {s/d(s, si ) ≤ d(s, sj ), j ∈ [1; N]}Centroïdes : si = arg minx E [d(s, x)/s ∈ Ci ]

100 / 207



Conclusion sur la QS

Diminution de la ressource binaire au prix de pertes, facilementmodélisable

Des précautions doivent être prises dans le réglage du quantifieur,notamment adapté la dynamique du quantifieur à celle du signal (pouréviter le dépassement)

Est optimal lorsque la source à quantifier à une DDP "‘plate"’ (QSU),sinon, des solutions sous-optimales existent

Pour un débit fixé, introduit d’autant moins d’erreurs que la dynamiquedu signal est faible

Pour une dynamique fixée, introduit d’autant moins d’erreurs que laressource binaire est grande

101 / 207



Quantification Vectorielle (QV)

“Le codage est globalement plus performant s’il opère sur desgroupes d’échantillons” [C. Shannon, 1948]

QV = technique optimaleMise en pratique récente dans de nombreuses applications :

sur vecteurs composés d’échantillons successifs du signalsur des jeux de paramètres modélisant x

102 / 207



Quantification Vectorielle (QV) (2/2)

Principe du quantifieur identique à QS, en prenant :Des vecteurs x = [x(0), x(1), x(2), ..., x(k − 1)] de taille k au lieu descalaires

Un dictionnaire de N vecteurs xi (de taille k )

Une partition P = {xi}i=0..N−1 de l’espace des vecteurs de dimension k

Une distance vectorielle d(x , xi )

103 / 207



Vocabulaire

Vocabulaire

dim(E) 1 > 1Q quantif. scalaire quantif. vectoriellexi niveaux représentantsxi = {x/Q(x) = xi} intervalles régions

P = {xi}i=0..N−1 : Partition

D = {xi}i=0..N−1 : Dictionnaire

104 / 207



Résolution

Definition (Résolution d’un QV)

La résolution est le nombre de bits utilisés par composante (ici 1

code binaire BCD pour k composante de signal) donc R =log2(N)

k

Remarques :Si les vecteurs sont composés d’échantillons concaténés, R est encorele nombre de bits par échantillon et le débit est toujours

RFe =log2(N)Fe

kEn général, le nombre de représentants N de la QV est supérieur àcelui de la QS (car formes vectorielles plus complexes/nombreuses queformes scalaires)→ Objectif = diminuer R en « dosant » N et k

105 / 207



Bruit de quantification et distorsionDefinition (Bruit de quantification)

q = x −Q(x)

Definition (Distorsion)

D =

∫Rk

d(x ,Q(x))pX (x)dx =N−1∑i=0

∫x∈xi

d(x , xi )pX (x)dx

avec d une distance vectorielle définie à l’aide d’une matrice depondération W par :

d(x ,Q(x)) = (x −Q(x))tW (x −Q(x))

Remarque :Si W = I, distance euclidienne avecd(x ,Q(x)) = (x −Q(x))t (x −Q(x)) = ||x −Q(x)||2

Sinon W souvent choisi pour refléter des critères perceptifs

106 / 207



Illustration de l’optimalité de la QV en 2D

QS dans la direction x et dans la direction y

107 / 207



Vers un dictionnaire optimal pour la QV

L’algorithme de Lloyd généralisé

Sur la base de M vecteurs x (observés), construction itérative duquantifieur (dictionnaire + partition) avec alternance des deuxconditions d’optimalité au sens de la distance d choisie

Plus proches voisins : xi = {x/d(x , xi ) ≤ d(x , xj ),∀j 6= i}Centroïdes : xi = arg min

pE [d(x , p)/x ∈ xi ]

avec arrêt lorsque la distorsion moyenne D =1M

M∑n=1

d(x ,Q(x)

)atteint un minimum

108 / 207



Performances

1 Dictionnaire localement optimal mais pas globalement optimal (toujoursà cause de la présence de minima locaux dans l’EQM) ; en général esttrès bon en pratique

2 Difficulté majeure : initialisation du dictionnaire délicate ; en général,

1 Tirage aléatoire de N éléments de la base de données2 QS sur chaque composante

109 / 207



Approche du codage par prédiction linéaire

La QV n’exploite pas les relations statistiques liant les composantes duvecteur x quantifié

A l’inverse la prédiction linéaire exploite la corrélation entre cescomposantes

110 / 207



Approche du codage par prédiction linéaire

Example (Composantes = pixels d’une image)

Le niveau de gris x d’un pixel donné est fortement lié au niveau de grisde ses voisins

Si voisins ≈ noirs, le pixel a de très forte chance d’être "‘très foncé"’Principe :

1 prédire le niveau de gris x du pixel à partir de ses voisins2 quantifier l’erreur de prédiction e = x − x

Intérêt :1 La dynamique de l’erreur est plus petite que la dynamique du signal donc

elle peut être quantifiée avec moins de bit que le signal tout en induisantune même distorsion

2 Elle peut avoir une DDP plus propice à la quantification (plus plate→ Qoptimal)

110 / 207



Schema de principe

x(n)x(n − 1)x(n − 2)

...x(n − P)

+/- Qe(n)

i

P(z)

x(n)

Q−1 +/-e(n)

y(n)y(n − 1)y(n − 2)

...y(n − P)

P(z)

y(n)

Codeur Décodeur

Suppose que le décodeurconnaît la prédiction y(n) par codage du signal x(n) dans le bitstream

ou est capable de recalculer (sans trop d’erreur) y(n) ≈ x(n)

111 / 207



Prédiction linéaireLa valeur prédite x(n) de x(n) est une combinaison linéaire desvoisins. En général,

Definition (Prédiction linéaire pour un modèle Auto-Regressif)

x(n) =P∑

i=1

aix(n − i)

avec ai les coefficients de la prédiction linéaire, P est l’ordre laprédiction et x(n − i) les valeurs de signal précédents x(n)

Implémentation par un filtre : P(z) =P∑

i=1

aiz−i aisé sur un

composant dédié au TS (microprocesseur)

Definition (Erreur de prédiction)

e(n) = x(n)− x(n) = x(n)−P∑

i=i

aix(n − i)

112 / 207



Calcul des coefficients de la PLObjectif

Trouver les coefficients ai qui minimisent (en moyenne) l’erreur deprédiction, i.e. E [σ2

e] :

{ai} = arg min E

(x(n)−P∑

i=i

aix(n − i)

)2Theorem (Equations de Yule-Walker : Lien entre coefficients deprédiction et fonction d’autocorrélation)

∀n,P∑

i=1

ai rX (n − i) = rX (n)⇔ a = −R−1X rX

où rX est la fonction d’autocorrélation de X, rX = [rX (1) . . . rX (P)]t et

R =

rX (0) · · · rX (P − 1)...

...rX (P − 1) · · · rX (0)

Remarque : Calculer les {ai} c’est faire une analyse LPC 6

6. Linear Prediction Coding

113 / 207



Rappel : Fonction d’autocorrélationRôle : détecter des régularités, des profils répétés dans un signal,comme un signal périodique ou une fréquence fondamentale d’un si-gnal

Definition (Fonction d’autocorrélation)

rX (p) = E [x(n)x(n − p)]

Definition (Estimateur de l’autocorrélation)

Pour N observations du signal x statitonnaire (réel), fonction paireavec

rX (p) ≈ 1N − p + 1

N−1∑n=p

x(n)x(n − p)

114 / 207



Rappel : Fonction d’autocorrélation

Example (Signal = somme de 2 sinusoides + un bruit)

Remarque :En p = 0 la puissance du signal

Un pic à 1/f (et tous ces multiples) pour les sinusoides

114 / 207



Illustration

Deux avantages : réduire la dynamique du signal à quantifier +platifier son spectre⇒ une QSU peut plus facilement être mise enoeuvre avec de bon résultat en RSB pour un faible nombre de bit(gain en ressource binaire)

115 / 207



Codeur prédictif : vers un schéma bouclefermée

x(n)x(n − 1)x(n − 2)

...x(n − P)

+/- Qe(n)

i

P(z)

x(n)

Q−1 +/-e(n)

y(n)y(n − 1)y(n − 2)

...y(n − P)

P(z)

y(n)

Codeur Décodeur

Les coefficients de prédiction sont codés périodiquement et transmis viale bitstream au décodeurLe signal x(n) est reconstruit en y(n) prédit à partir de y(n − 1), ...y(n − P), sans trop d’erreur si le taux de compression est faibleSinon, schéma en boucle fermée avec copie du décodeur à l’émetteurpour inclure avec l’erreur de prédiction un correctif des erreurs dudécodeur

116 / 207



Quantification

Résumé

Eliminer une partie de l’information par arrondi ou suppression desdépendances dans les relations entre composantes du signal source

Un compromis entre précision de l’information quantifiée et erreur dequantification (induisant des distorsions)

Quantification d’autant plus performante (en terme d’optimisation du fluxbinaire) si la source est de ddp uniforme

Précaution à prendre dans le choix des paramètres du quantifieur pouradapter la dynamique du quantifieur à la dynamique de la source

117 / 207


Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole

Quatrième partie IV

Compression de la parole : lescodec paramétriques

15 Caractéristiques de la paroleModèle source-filtre

16 Rappels17 LPC10

Schéma de principeAnalyse du codec LPC10Conclusion

18 CELP : l’approche QV19 Conclusions sur la compression de parole

118 / 207



Rappels : Compression & Outil

Objectif de la compression :1 Trouver une représentation des signaux efficace pour diminuer la ressource

binaire : codage efficace/suppression de redondance2 Un gain en débit peut se faire par perte d’information à la condition que la

qualité d’écoute du signal reconstruit ne soit pas “trop dégradé”

Deux outils :1 Codage (sans perte) d’autant plus proche de l’optimal entropique que la

ddp de signaux codés est uniforme2 Quantification (avec pertes) d’autant plus efficace que les paramètres du

quantifieur sont adaptés à la dynamique des signaux

119 / 207



Ordres et qualité de grandeurs en parole

Signal numérisé par CAN avec filtre passe-bas pour limiter la bande defréquence et éviter les phénomènes de repliement spectral

Qualité ∆B (kHz) Fe (kHz) b/e Débit nc→ cBande téléphonique 0.3-3.3 8 13 bits 104→ 6 kbit/s

Bande élargie 0.05-7 16 14 bits 224→ 24 kbit/s

Qualité du signal reconstruit :Tests objectifs de qualité : PESQ 7 utilisés pendant la phase d’élaborationTests d’intelligibilité (Absolute Category Rating, Degradation CategoryRating, etc...)

7. Perceptual evaluation of Speech Quality/Audio Quality / Rec. UIT-R P.862, BS.562

120 / 207



Caractéristiques des signaux de parole

Caractéristiques

Signal à forte variabilitétemporelle car contenantplusieurs informations : lecontenu linguistique (phonème,langue), le locuteur oul’environnement sonore

mais pseudo-stationnaire a surdes fenêtres de 10 à 30 ms

a. de caractéristiques statistiques indépendantes du temps

Definition (Types (principaux) de sons de parole)

voisés avec vibrations des cordes vocales (voyelles, [m], [b], [n])

non-voisés ([ch], [s], [f]) (incluant plosifs, fricatives, ...)

121 / 207



Modèle source-filtre du signal de parole

Mécanisme de production de la parole

Les sons sont produits par une source (excitation venant des cordesvocales) qui passe à travers et est mis en forme par le conduit vocal(pulsation de la glotte, cavité buccale et nasale + lèvres)

→ Modèle de synthèse permettant de reconstruire la parole

122 / 207



Modèle source-filtre du signal de parole

Definition (Modèle source-filtre)

1 Sourcessons voisés = vibration des cordes vocales à une fréquence fondamentaleF0 ⇒ excitation par train d’impulsions de fréquence F0 (appelée pitch a )sons non-voisés = passage forcé de l’air⇒ excitation par bruit blanc

2 Mise en forme du conduit vocal = opération de filtrage linéaire avecgain G de “réglage du volume”

a. dont la valeur moyenne est caractéristique du sexe et du locuteur

Remarques :Signal particulièrement adapté pour l’usage de la PL : réduction de débiten codant le filtre-conduit vocal (obtenu par PL) et les sources

Modèle adapté aux voisés, non-voisés mais ayant ses limites :n’explique pas les parties plosives du signal ni d’autres modes deproduction (sifflement)

122 / 207



Filtre numérique

Definition (Filtre numérique H)

Système numérique, d’entrée x(n) et de sortie y(n), modifiant lecontenu spectral de x en amplifiant, atténuant ou éliminant certainescomposantes spectrales

Un filtre est (souvent) défini par une équation aux différences 8 :

y(n) =M∑

j=0

bjx(n − j)

︸︷︷︸partie MA 9

−P∑

i=1

aiy(n − i)︸︷︷︸partie AR 10

aisément implémentable dans des composants électroniques dédiés(avec additionneur, multiplieur et registre à décalage)

8. combinaison linéaire9. Moyenne Ajustée

10. AutoRégressive

123 / 207



Tranformée en Z

Definition (Transformée en Z)

Transformée inversible, adéquate pour la caractérisation des filtres

numériques et définie par a TZ [x ](z) =+∞∑

n=−∞x(n)z−n pour la variable

complexe z

a. série entière

Un filtre est entièrement caractérisé par :

1 sa fonction de transfert H(z) =TZ [y ](z)

TZ [x ](z)=

M∑j=0

bjz−j

1 +P∑

i=1

aiz−i

2 sa réponse impulsionnelle h(n) = TZ−1[H](n)

124 / 207



Filtrage

Definition (Relation de filtrage)

1 Outre l’équation aux différences, filtrer x par H revient à :un produit de convolution dans le domaine temporel :

y(n) = h(n) ? x(n) =+∞∑

i=−∞h(i)x(n − i)

un produit dans le domaine en Z : TZ [y ](z) = H(z).TZ [x ](z)

2 Inverser le filtrage de x par H revient à :

un quotient dans le domaine en Z : TZ [x ](z) =1

H(z).TZ [y ](z) donc à

filtrer y par le filtre de fonction de transfert1

H(z)

125 / 207



Transformée de Fourier et Densité Spectralede Puissance

Pour une fenêtre de signal x de N échantillons,

Transformée de Fourier Discrète (TFD, FFT) : transformée inversible,permettant la conversion temps/fréquence du signal x :

∀k = 0..N−1,TFD[x ](k) = X (k) =N−1∑n=0

x(n) exp(−j2π

kN

n)

avec f =kN

Fe

Densité spectrale de puissance (DSP), puissance des composantesfréquentielles sonores :

∀k = 0..N − 1,Sx (k) =|X (k)|2

N

symétrique (pour un signal réel tel que la musique) par rapport à N/2

126 / 207



De la TZ à la DSP

Definition (Lien entre la TZ et la Transformée en Fourier)

TF [h](f ) = H(z)|z=e2πjf/Fe = |H(f )|ejφ(f )

Example (Un filtrepasse-bas)

H(z) =1

1− 0.5z−1

Remarque : si x(n) bruitblanc, y(n) = h(n) ? x(n)de DSP égale à |H(f )|2

127 / 207



Introduction

Codec de parole LPC10

Codec obsolète fonctionnant à 2.4 kbit/s

Application "directe" du modèle source-filtre avec analyse LPC

Objectif du LPC10

L’oreille étant (en 1ère approche) peu sensible à la phase, codecfocalisé sur la DSP des signaux avec pour but que Sy (f ) ≈ Sx (f )

Traitement temporel

Signal traité par trames de N = 240 échantillons avec recouvrementde 2/3

128 / 207



Principe du décodeur/synthèse

Générateurd’impulsions

Générateur aléatoire

x

Gain g

1A(z)

Coefficients LPC ai

Audio reconstruity(n)

Pitch F0

SourceConduit vocal

Décodeur : basé directement sur le modèle source-filtre

Encodeur : analyse du signal pour déterminer, quantifier puis coder lesparamètres de synthèse adéquates en minimisant le débit et enassurant la qualité par Sy ≈ Sx

129 / 207



Modélisation du conduit vocalHypothèse du modèle source-filtre

Le conduit vocal réalise une mise en forme de l’excitation y(n) pourproduire le signal de parole x(n)→ filtre !

Le signal de parole (en 1ère approximation) suit un modèleAutoRégressif

Le conduit vocal peut donc être modélisé par1

A(z)=

1

1 +P∑

i=1

aiz−i

avec P ≈ 8− 15

L’analyse LPC du signal x est donc particulièrement adaptée au calculdes coefficients ai (cf algorithme de Durbin-Levison)

Remarque : Inverser les effets du conduit vocal revient à filtrer par

A(z) = 1 +P∑

i=1

aiz−i

130 / 207



Illustration : ’sss.wav’ (P=10)

i ai0 1.01 0.35942 0.78903 -0.18984 -0.26295 -0.92146 -0.30167 -0.43788 0.06649 -0.0328

10 0.0564

Pondération du signal par une fenêtre de Hamming avec analyse LPCpour atténuation des artéfacts fréquentiels

1A(z)

de réponse en fréquence l’enveloppe spectrale du signal→

modélisation de la répartition globale du signal en fréquence

sss.wav

131 / 207



Analyse d’un signal non voisé

Hypothèse du modèle source-filtre

Son non-voisé x(n) ≡ excitation du filtre/conduit vocal par un bruitblanc

A la synthèse A l’analyseExcitation y(n) ∼ N (0, σ2

y ) L’audio original x(n) vient d’unede DSP Sy (f ) = σ2

y excitation x(n) ∼ N (0, σ2x )

L’audio y(n) est reconstruit L’excitation x(n) est calculé

par filtrage de y(n) par1

A(z)en filtrant de x(n) par A(z)

donc Sy (f ) =σ2

y

|A(f )2|soit Sx (f ) = σ2

x = |A(f )|2SX (f )

où |A(f )|2 est la réponse en fréquence du filtre A(z)

132 / 207



Illustration : ’sss.wav’ non-voisé (P=10)

x de DSP non plate donc corrélé tandis que x de DSP applati doncdécorrélé, proche d’un bruit blanc

133 / 207



Synthèse d’un signal non voisé

Au décodeur, pour reconstruire y(n), il faut transmettre (idéalement)dans le bitstream :

1 Les coefficients du filtre, vecteur de P coefficients, codés2 L’excitation x(n)→ y(n), vecteur-signal de N valeurs, codée

Mais si l’objectif est d’avoir Sy (f ) ≈ Sx (f ), on peut ne transmettre quela puissance de l’excitation σ2

x → σ2y , permettant un gain de débit non

négligeable (1 seule valeur)

Principe du vocodeur

L’audio y est reconstruit en appliquant en entrée du filtre de synthèse1

A(z)n’importe quelle réalisation d’un bruit blanc y(n) à condition

que σ2x = σ2

y ; x aura la même DSP que x (objectif LPC10 atteint)mais une forme d’onde différente

134 / 207



Exemple sonore (P=15, N=160)

A l’analyse A la synthèseaudio, excitation, puissance audio reconstruit, excitation

greg1.wav, greg1_vocodeur.wav

135 / 207



Inefficacité pour un son voisé (P=10)

Résidu de périodicité : ici7 périodes en N = 512échantillons donc defréquence fondamentale≈ 7/NFe = 150 Hz (voixd’homme)→ justifiel’utilisation d’un autremodèle d’excitation pourles sons voisés

a.wav

136 / 207



Analyse d’un signal voisé

Hypothèse du modèle source-filtre

Son voisé x(n) ≡ excitation du filtre/conduit vocal par un traind’impulsion périodique de fréquence fondamentale F0

Excitation à l’analyse et à la synthèse

x(n)y(n)

}= α

+∞∑m=−∞

δ(n−mT0+φ) de DSP Sx (f ) = α2∞∑

m=−∞δ(f−mF0)

avec (seulement) 4 paramètres à transmettre dans le bistream :δ le symbole de Kronecker i.e. δ(n) = 1 si n = 0, = 0 sinon,

T0 = 1/F0,

φ une incertitude sur la phase,

α un gain contrôlant la puissance du peigne

137 / 207



Exemple sonore : synthèse avec F0 fixe

audio, excitation, puissance audio reconstruit, excitation

Signal synthétique ne reproduisant pas les variations dans la hauteurde la voix

greg1.wav, greg1_voise1.wav

138 / 207



Exemple sonore : synthèse avec F0

adaptative

audio, excitation, fréquence F0 audio reconstruit, excitation

F0 adaptative sur chaque trame (problème complexe) résolu ici avec le1er pic d’autocorrélation (périodicité principale de l’excitation)→ modèlenon adapté aux parties non-voisées

greg1_voise2.wav139 / 207



Avec détecteur voisé/non-voisé

audio, excitation, fréquence F0 audio reconstruit, excitation

Alternance du modèle d’excitation (bruit, train d’impulsions) en fonctiondu type de son synthétisé avec détecteur de voisement (basé sur ladécroissance ± ’rapide’ de l’autocorrélation)

greg1_LPC10.wav

140 / 207



Performance

Contenu du bitstream et Débit : pour 50 fenêtres par seconde

10 coefficients LPC quantifiés avec 3/4 bits→ 1.8 kbits/s

σ2x ou α quantifié avec 6 bits par frame→ 300 bits/s

distinction non voisé/voisé avec 1 bit par frame→ 50 bits/s

Période fondamentale 50 ∗ log2(T max0 − T min

0 ) ≈ 350 bits/s

Qualitéacceptable mais peut-être améliorée

1 en considérant un modèle de parole plus réaliste2 en cherchant non plus à restituer la DSP mais le signal lui-même au

plus proche de l’original

141 / 207



Introduction

Definition (Code Excited LP (CELP) )

Débit de 4.8 à 16 kbits/s

Codec basé sur une modélisation AR du signal de parole (exploitant uneLPC pour modéliser le conduit vocal par un filtre) avec un modèled’excitation intégrant K (≈ 2-3) composantes :

y(n) =K∑

k=1

gkδ(n − nk )

où gk gain et nk déphasage de chaque composante

les composantes sont choisies de manière optimal pour minimiserl’EQM (perceptuel) de reconstruction ||x(n)− y(n)||2

En pratique,copie locale du décodeur à l’encodeur pour la recherche optimale del’excitation (modélisation par la synthèse)utilisation d’un dictionnaire de forme δ(n − nk )→ problème de QV

142 / 207



Schéma de principe

143 / 207



Exemple sonore (sans quantification)

greg1.wav, greg1_CELP.wav

144 / 207



Cas du codeur CELP UIT-T G.729 à 8 kbit/s

Coefficients du filtre de synthèse 1/A(z) d’ordre P = 10Actualisation toutes les 10 ms (fenêtre d’analyse de 80 échantillons)Codage des “Line Spectrum Pairs” sur 18 bits

Entrée du filtre de synthèse e(n) = e1(n) + e2(n)

Actualisation toutes les 5 msPredicteur à long terme : e1(n) = g1e(n − λ) avec g1 codé sur 3 bits, λcodé sur 7 bits caractérisant la période fondamentale (“pitch”)e2(n) = g2sk (n) où sk (n) ∈ [s0, ..., sL−1] = dictionnaire de QV, avec g2codé sur 4 bits, k codé sur 17 bits

Toutes les 10 ms : 18 + 2 ∗ (3 + 7 + 4 + 17) = 80⇒ 8 kbit/s

145 / 207



Technologies actuelles et futures

Technologies complémentaires : Voice Activity Detector (VAD), ConfortNoise Generation (CNG)Débit variable adapté au réseau (diminution du débit débit diminuelorsque l’encombrement du réseau augmente) : AMR (Adaptive MultipleRate) = GSM 06.90 (ETSI 1999)

Plusieurs codeurs à 6= débits + switch automatique à la volée en fonctiondu réseauAdaptation conjointe du codage canal

Débit variable adapté au signal de parole (changement de débit enfonction de la nature du signal à encoder : sons voisés, transitions,silence)

Encore beaucoup de R&D sur ce thème (idem en codage audio)Exemple : VMR (Variable rate Multimode) WidebandNotion de débit moyen / Nécessité de buffers

146 / 207


Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion

Cinquième partie V

Compression audio : l’exempledu MPEG

20 Caractéristiques de la musiqueLa musique

21 Psychoacoustique

22 MPEG-1Principes de l’encodeurFlux MPEGCodage de la stéréoBilan

23 Conclusion

147 / 207



Ordres de grandeurs en audioSignal numérisé par CAN avec filtre passe-bas pour limiter la bande defréquence et éviter les phénomènes de repliement spectralBande "Hi-Fi"

Qualité ∆B (kHz) Fe (kHz) b/e Débit nc→ c“FM” 0.02-15 32 16 bits 512→ 64 kbit/s (mono)“CD” 0.02-20 44.1 16 bits 705→ 64 kbit/s (mono)

1.4 Mbit/s→ 96 kbit/s (stéréo)“Studio” 0.02-22 48 16 bits 768→ 64 kbit/s

3.84 Mbit/s→ 384 kbit/s (5.1)“parfaite” 0.02-40 96 24 bits 13.8→? Mbit/s (5.1)

Différentes approches en fonction du taux de compressionTaux de compression “standards” (≈ 64 kbit/s) visant la “transparence”pour les baladeurs MP3, DVD, TNT⇒ Elimination des composantesinaudibles avec codeurs “perceptuels”Taux de compression élevés (≈ 24 kbit/s), proposant une qualité“intermédiaire” pour le streaming, téléphones mobilesTaux de compression faibles (≈ 300 kbit/s) pour l’archivage, les studios deproduction⇒ Codage sans perte ou presque sans perte (type FLAC)

148 / 207



Évaluation de la qualité sonore

1 Test subjectif (écoute) formel (protocole expérimental)Codeurs audio pour des débits compris entre 20 et 64 kbits/s : qualité“intermerdiaire”⇒ méthode MUSHRA 11

Codeurs audio de très bonne qualité : “Transparence”⇒ Méthode du“doublement aveugle à triple stimuli et référence dissumulée” 12

Enregistrements courts (entre 5 et 10 secondes) répétés 3 fois2 possibilités ABA/AAB (A = original, B = codé/reconstruit)Réponse réclamée : 1) B en 2ème ou en 3ème position ? 2) Opinion sur B (5niveaux)Traitement statistique⇒ comparaison “objective” entre codeurs

2 Tests objectifs : PEAQ 13

utilisé pendant la phase d’élaboration du codec

11. MUltiple Stimuli with Hidden Reference and Anchor / Rec. UIT-R BS.1534-112. Rec. UIT-R BS.111613. Perceptual evaluation of Audio Quality / Rec. UIT-R P.862, BS.562

149 / 207



Caractéristiques des signaux de musique

Caractéristiques

Signalpseudo-stationnaire surdes fenêtres de 20 ms

Dynamique importante(90 dB)

Partiels a éventuellementreliées harmoniquement

a. Composantes spectrales prédominantes

Pas de modèles de production simples hormis à considérer chaqueinstrument isolément mais des modèles psychoacoustiques pourdéterminer les composantes non-audibles du signal

150 / 207



Aspects psycho-acoustiques

Objectifs

Déterminer l’information sonore non-pertinente pour la perception, ouintroduisant de faibles distorsions perceptuelles

Résultats d’études psycho-acoustiques/physiologiques

caractérisant les 3 imperfections (majeures) de l’oreille :1 Faible sensibilité à la modification de phase au delà de 2kHz2 Seuil d’audition absolu : courbe de puissance minimum (en DSP) en

fonction de la fréquence (bande 0-20 kHz) d’un son pour être entenduen environnement ’calme’

3 Masquage d’un son par un autremasquage fréquentiel : deux sons simultanésmasquage temporel : deux sons consécutifs a

a. moins exploité, mais on verra quelques facteurs temporels à prendre en compte

151 / 207



Masquage fréquentiel

Origine

l’analyse en fréquence faite parla conversion mécanique→fréquentielle a des vibrations dela membrane basilaire

a. Frequency-to-place transformation

Principe

Un son fort de puissance P1 etde fréquence f1 peut rendreinaudible les sons plus faiblesqui se situent dans une zonede fréquences ∆f (f1) prochesde f1 et de puissance inférieureà un seuil S(P1, f1).

152 / 207



Courbe de masquage élémentaire

Cadre théorique : sonsmasquant ou masquésélémentaires = sinusoïdes oubruits à bande étroite

En l’absence de sonmasquant, seuil d’auditionabsolu Pa(f )

En présence de sons masquants, courbes de masquages S(P1, f1)triangulaires 14 (dans le domaine DSP) centrées sur ∆f (f1) et baséessur 3 paramètres : pente droite, gauche et atténuation de puissance

Zone des fréquences masquées ∆f (f1), de largeur croissante avec f1,plus large pour f > f1 que pour f < f1

14. de même forme pour les 4 cas élémentaires mais avec une paramétrisation diffé-rente

153 / 207



Phénomène de bandes critiquesPhénomène mis en évidence avec des mélanges de sonsélémentaires conduisant

au découpage des fréquences audibles en bandes de fréquence ditcritiques

à une échelle de fréquence auditive : l’échelle des Bark (échellelogarithmique)

Les contributions en puissance des sons élémentaires présents sontintégrées ≈ sommées) seulement dans une certaine largeur de bande =bande critique

Example

N sinusoïdes de puissance P séparées de ∆f autour de f sont toutesaudibles tant que NP ≥ Pa(f ) et N∆f ≤ BC. Au-delà de BC, lessinusoïdes supplémentaires n’influencent plus le son perçu. a

a. Idem pour les sons type bruit à bande étroite

154 / 207



Bandes & Fréquences critiques

Découpage de l’échelle des fréquences en 25 BC suivant un découpagelogarithmique, chaque BC étant 1 BarkCompatibilité des BC avec le principe de masquage fréquentiel : lacourbe de masquage élémentaire couvre (s’applique sur) une BC

155 / 207



Courbe de masquage globale

HypothèseLes contributions de toutes les composantes du son dans lephénomène de masquage s’additionnent

156 / 207



Courbe de masquage globale

Principe du calcul d’une courbe de masquage globale SM(f ) surun bloc de signal (stationnaire)

Approche empirique→ différents modèles (normalisés) basés sur unmême principe :

1 estimation de la DSP (par exemple par FFT)2 classification des composantes fréquentielles en sons purs / bruit selon

un critère d’isolement et de puissance relative3 sommation des composantes les plus proches pour chaque type de son

(pur / bruit) dans chaque bande critique4 suppression des composantes inférieures au seuil d’audition absolu

Sa(f )

5 pour les autres, 1) calcul des seuils de masquage individuels, 2) additiondes contributions individuelles, 3) écrêtage au seuil absolu (Sa(f ))

156 / 207



Un exemple de piano

157 / 207



Codeur perceptif : l’exemple de MPEG-1

Standard de 1992, inclut le MP3 = MPEG 1 Audio Layer 3, développé audébut des années 90 par Fraunhofer

Débit fixe ou variable (réglable)

Fréquence d’échantillonnage : 32, 44.1, 48 kHz

Modes mono / (forced) stereo / joint stereo

Gamme de débit prédéfinis + libres, de 8 à 320 kbps par canalLayer 1→ Layer 2→ Layer 3

Performances croissantes (par exemple pour Layer 1, on recommande undébit > 128 kbps, pour Layer 2 ≈ 128kbps et pour Layer 3 < 128 kbps)Complexité croissante

158 / 207



Schéma général de MPEG-1

159 / 207



Temps-fréquences : illustration des bancsde filtres

Transformation non inversible, mais ayant une très faible erreur dereconstruction & décorrélant les coefficients

Sous-échantillonnage critique dans chaque sous-bande d’un facteur 32pour réduction du nombre de coefficients à coder

Travail en sous-bande : notamment, les coefficients étant quantifiés,choix d’un facteur d’échelle par sous-bande Ak et quantification descoefficients normalisés

160 / 207



Modèle psychoaccoustique de MPEG1

Application d’un modèle heuristique sur chaque fenêtre de signal x(n)pour obtention d’un masque SM (f )

Rappel : l’erreur de représentation (quantification) sur une fenêtre estinaudible si Se(f ) < SM (f )

Permet de calculer le Rapport Signal à Masque (RSM) pour chaquesous-bande, transmis à la procédure d’allocation de bits

Ce RSM ≡ au RSB minimum tolérable par l’oreille après quantification

161 / 207



Allocation de bits

Balayage des bandes de fréquences à quantifier en commençant parcelle les plus sensibles au erreur de quantification (donc de RSB le pluséloigné du RSM)

Allocation de bits (dans la limite du budget binaire disponible) induisantune dimension du RSB suivant la règle des 6 dB/bits

Une sous-bande ne reçoit plus de bit dès que RSB<RSM ou dès que lebudget binaire est épuisé (la contrainte RSB<RSM n’étant pasnécessairement garanti)

Au final, la DSP erreur de quantification est mise en forme suivant lemodèle psychoacoustique

162 / 207



Exemple d’allocation binaire

163 / 207



Quantification

1 Layer 1 : Quantification des coefficients par paquets de 12 échantillons tem-porels (sous-échantillonés)

Allocation de bits entre les différentes bandes basée sur la comparaison entrebruit de quantification et seuil de masquage

Un quantificateur uniforme pour chaque bande + un facteur d’échelle (pouroptimiser la résolution)

2 Layer 2 : Les coefficients issus de 3 paquets de 12 échantillons temporelssont traités conjointement pour chaque bande :

Une seule allocation de bits pour les 3 paquets

1 à 3 facteurs d’échelle selon besoin↔ regroupement de plusieurs valeurs enune seule valeur si de valeurs suffisamment proches ou si la différence estmasquée par un phénomène de masquage temporel

Codage binaire plus efficace des facteurs d’échelle et des valeurs quantifiées

164 / 207



Quantification

3 Layer 3 :Couche MDCT supplémentaire

Quantification non-uniforme pour chaque canalUtilisation d’un “bit reservoir” adapté au débit variable du codage

Le nombre de bit peut varier d’un bloc à l’autreLa taille des blocks varieBit reservoir = buffer (en pratique, l’espace du bitstream correspondant à une tramepeut être occupé par les bits du codage d’une autre trame)

Codage de Huffman pour les facteurs d’échelle et les valeurs quantifiées

Procédure d’allocation de bits plus raffinée et plus complexe que pour Layer 1 et2

4 Dans tous les cas :Les quantificateurs sont normalisés pour chaque sous-bande et sontéventuellement assez différents des QSU typiques (par exemple, le nombre deniveaux n’est pas forcément une puissance de 2)→ un série de tables de valeursen mémoire

164 / 207



Informations transmises du codeur MPEG-1Layer-1

Dans chaque fenêtre d’analyse (32 * 12 = 384 echantillons⇒ 9 mslorsque Fe = 44.1 kHz)

Allocation de bits b0 ... bM−1 explicitement transmise (88 bits)Chaque facteur d’echelle Ak codé sur 6 bits si bk > 0 (ex : 120 bits si 20sous-bandes transmises)Bits restants : mots de code associés à chaque composante normalisée

Bits restants :96 kbit/s : 96000*384/44100 - 88 - 120 = 628 bits64 kbit/s : 350 bits, etc.

⇒ impossible de diminuer davantage le débit sans trop de dégradationssonores d’où la mise en oeuvre de codec plus performant (autrestransformations temps/fréquences, autres modèles psychoacoustiques,etc...)

165 / 207



Structure du flux binaire

166 / 207



Codage de la stéréo

Redondance particulière entre les deux voiesUn mode de codage possible : le Middle/Side (MS) :

On code M = L + R avec technique standardOn code S = L− R avec technique particulière (et débit moindre)On reconstruit Lq = (Mq + Sq)/2 et Rq = (Mq − Sq)/2

167 / 207



MP3 récapitulatif

168 / 207




“Scalability” : codage hiérarchique progressifEsprit de la norme MPEG-4Les bitstreams sont décomposables en sous-bitstreams de correspondantà un débit et qualité inférieursLa transmission et reconstruction du signal sont adaptés au canal / auxdésirs de l’utilisateurCodage hiérarchique : la différence entre le signal original et le signalencodé par un premier codeur (core coder) est codée par un secondcodeur (enhancement coder)En pratique : 3 ou 4 couchesExemple : “CELP comme core coder + MPEG4-AAC comme enhancementcoder”→ codage de parole de bonne qualité à bas débit

169 / 207




Adaptation aux réseaux et notamment aux transmissions mobilesRobustesse aux erreurs de transmission (aspect progressif desdégradations de qualité en fonction de l’augmentation des erreurs)Lien avec Scalable CodingFaible consommation des systèmes mobiles “faible” complexité des codecs

Convergence codeurs parole/musique, multi-canaux

Facilité d’accès dans les bases de données (MPEG7)

Besoin de sécurité réclamé par les majors (MPEG21)

En résuméEncore de la recherche, beaucoup de développement !

169 / 207


Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion

Sixième partie VI

Tatouage de donnéesmultimédia : applications aux

signaux audio numériques24 Introduction25 Preuve de propriété

ApplicationSchéma de principeDétecteurParamétrisation du système

26 Traçabilité de contenusApplication et contraintesSchéma de principeParamétrisationDécodeurVers un schéma informé

27 Canal cachéApplicationLSBSS haute capacitéLe Scalar Costa SchemeQIM/STDM

28 Conclusion

170 / 207



Introduction

Definition (Tatouage, ou plus généralement, le data-hiding a)

a. Transmission de données cachées

Art de cacher de l’information (signature numérique, texte, média)dans un contenu multimédia, en prenant avantage du contenu(information adjacente)

Contenu multimédiaAudio, image, vidéo, texte, modèle 3D, ...

Problématique

Un problème de communications numériques (transmission d’uneinformation cachée dans un signal d’un émetteur vers un récepteur)avec plusieurs scénarios applicatifs

171 / 207



Limites de la cryptographie

Cryptographie

« Art » des codes secrets, permettantune écriture indéchiffrable (via une clésecrète) et sécurisant la transmissiond’un contenu

Tatouage

« Insertion » de données secrêtes,indissociable du contenu a, marquant lecontenu tout au long de son existence

Procédé numérique plutôt quepsycho-physiologique, donc non"‘subliminal"’

a. quel que soit son format

172 / 207



Limites de la cryptographie

Tatouage vs. cryptographie = Deux techniques complémentaires

interviennant en différents points de la chaîne de transmission maispartageant un même besoin de secret

172 / 207



Exemples historiques

Example (Herodotus, Histories (440 av. JC) : complot en Perse)

Histiaeus propose secrètement à Aristagoras de se rebeller contreDarius I, en envoyant un esclave-emissaire dont le crâne est tatouéavec : "cet esclave m’appartient"

Example (Bach et "‘L’art de la fugue"’)

Tonalité si/la/do/sol (notation française) et b/a/c/h (notationanglaise/allemande)

Example (Filigrane des billets de banque)

173 / 207



Le tatouage, protection des droitsd’utilisation

Tatouage-DRM a avec un drapeau d’usage (lecture, copie, ...)

a. Digital Right Management

Licence-DRM avec schéma à clés asymétriques détectée (voiredécodée) pour légiférer l’usage du contenu ; application d’origine, trèspeu considérée maintenant

174 / 207



Le tatouage, preuve de propriété(intellectuelle, commerciale)

Information cachée = Signature numérique secrète→ Débit d’insertionfaibleRécepteur = Détecteur = "la signature est-elle présente ?"→ Zero-bitwatermarkingUn scénario à 3 participants : le propriétaire (émetteur), le pirate oul’attaquant (canal), le détecteur

175 / 207



Contraintes & critères de performancesPreuve de propriété

Contenu caché MarqueDébit ↓↓

Imperceptibilité ↑↑Robustesse ↑↑

Coût ≈Récepteur détecteur

Performance Pe /Pfa

Imperceptibilité liée à la forced’incrustationMesure de la distorsion perçue

subjective : l’utilisateur

objective : RTS a, PSNR b,PEAQ c

a. ou WCR (Watermark-to-Content power Ratio)b. Peak Signal to Noise power Ratioc. Perceptual Evaluation of Audio Quality

Notes Qualificatif5 Imperceptible4 Perceptible mais non gênante3 Légèrement gênante2 Gênante1 Très gênante

TABLE: Evaluation de la qualité

176 / 207







Performance Pe /Pfa

Quantité de données émisesDébit de transmission effectif vs Capacité (Shannon)

Récepteur = détecteur de marque

Probabilité d’erreur Pe (faux négatif) vs. Probabilité de fausse alarmePfa (faux positif), très souvent en l’absence du signal d’origine(récepteur aveugle)

176 / 207







Performance Pe /Pfa

Robustesse

But du pirate = modifier lecontenu pour rendre la signatureillisible, voire la remplacer par lasienne, dans les limites de renduacceptable

Robustesse = capacité dudétecteur à résister auxperturbations licites (TS) etillicites (pirate)

1 Modifications de format (compression), dedynamique, d’échelles des temps (time-stretching), filtrage

2 Modifications d’ambiance, effet sonore3 Conversion analogique/numérique4 Cropping, collusion

TABLE: Extraits du Stirmark

176 / 207



Tatouage comme chaîne de communication

Canal

OUI?

NON?

Insertion

Signal

tatoué

Corrélation

Attaques

Perturbation

SignalTatouage t

Signal hote x

α

y y

tatoué dégradé

p

Identi�ant m

Ve teur se ret d Ve teur se ret d

Emetteur Canal Ré epteur

A l’émetteur

Un vecteur-identifiant d de Ns composantes, amplifié par un gain α pourassurer l’inaudibilitéInsertion :

But : pousser le signal tatoué y dans la région de détection de dIci ajout du tatouage t = αd aux composantes audio x

177 / 207



Vecteur de composantes

Definition (Domaine d’insertion)

Domaine des composantes extraites choisi en lien avec les défautsperceptifs et leur correspondance avec des modèles statistiques

Example (Domaines d’insertion courant)

Echantillons temporels*

Transformation temps/fréquence : DCT en images, FFT en audio,ondelettes (coefficients ∼ Gaussienne généralisées), ...

Caractéristiques masquées avec modèle perceptif

178 / 207



Force d’incrustation α

Puissance de l’identifiant d

Souvent de puissance σ2d = 1 pour déléguer le contrôle de

l’imperceptibilité à la force d’inscrustation α = σ2t

Definition (Rapport Tatouage-Signal (RTS))

RTS = 10 log10

(||t||2

||x||2

)= 10 log10

(α2

σ2x

)dB

179 / 207



Attaque

Dans le canalAttaque de pirate ≡ ajout d’un vecteur-bruit p venant perturber ladétection du tatouage

Definition (Rapport Tatouage-Bruit (RTB) a)

a. Watermark-to-Noise Ration (WNR)

RTB = 10 log10

(||t||2

||p||2

)= 10 log10

(α2

σ2p

)dB

Remarque : d’une puissance de même ordre de grandeur que celledu tatouage

180 / 207



Théorie de la détection

Objectif

Distinguer un signal contenant l’identifiant d d’un signal ne lecontenant pas :

Test d’hypothèse :{H1 : signal tatoué y = x + p + αdH0 : signal non tatoué y = x + p

Remarques :interprétation géométrique

p peut inclure une autre signature

Détecteur = CorrélateurProjection du vecteur analysé sur le sous-espace vectoriel engendré

par d : c =〈y,d〉

Ns=〈x + p,d〉

Ns+

{α sous H10 sous H0

181 / 207



Performances

Critères

1 Pe = Prob(H0|H1) : Probabilité d’erreur (faux négatif), i.e. de déciderque le signal y n’est pas marqué par d alors qu’il l’est

2 Pfa = Prob(H1|H0) : Probabilité de fausse alarme (faux positif), i.e. dedécider que le signal y est marqué par d alors qu’il ne l’est pas

Hypothèses de calcul

1 Vecteur audio x = Ns réalisations d’un bruit blanc ∼ N (0, σ2x )

2 Vecteur d’attaque p = Ns réalisations d’un bruit blanc ∼ N (0, σ2p)

tous décorrélés de d (i.e. E [x(n)d(n)] = 0 et E [p(n)d(n)] = 0), avecσ2

d = 1 puisque la puissance du tatouage est déléguée à α

182 / 207



Performances

Statistiques de la corrélation

c =〈x + p,d〉

Ns+

{α0 = N

(0,σ2

x + σ2p

Ns

)+

{α sous H10 sous H0

Choix d’un seuil dedécision τ

Pe = Prob(c < τ |H1) =∫ τ

−∞N

Pfa = Prob(c ≥ τ |H0) =∫ +∞

τ

N

FIGURE: Paramétrisation : ασx

= 0 dB,σ2

x + σ2p = 1, Ns = 10

182 / 207



Performances

Performances a→ Courbes ROC

a. avec erf(x) =2√π

∫ x

0e−t2

dt et erfc(x) = 1− erf(x)

Pe =

1 + erf

τ − α√

2σ2x +σ2

pNs

v.s. Pfa =12

erfc

τ√

2σ2x +σ2

pNs

Paramètres d’influenceLe RTS et le RTB

182 / 207



Courbes de performances

183 / 207



Spread-spectrum (étalement de spectre)

Principe

L’identifiant d est un vecteur de Ns réalisations (précises) d’un bruitblanc dont la DSP s’étale uniformément sur toutes les fréquences[0,Fc ], de sorte à :

étaler l’information tatouée sur différents coefficients spectraux : lapuissance instantannée de la transmission est réduite mais sonintégration par la corrélation est d’autant plus élevée que Ns est grandintroduire du secret :

l’identifiant est obtenu par un générateur de nombre pseudo-aléatoireinitialisée à l’aide d’une clé secrête dans le respect des principes desécurité de Kerckhoffs a

la direction de tatouage est donc secrète parmi ≈ 2Ns possibilités

assurer la décorrélation entre le signal audio, la perturbation etl’identifiant

a. la sécurité doit résider seulement dans 1 paramètre inconnu de l’attaquant

184 / 207



Robustesse aux attaques

Definition (Robustesse d’un système de tatouage)

Capacité d’un récepteur à détecter l’identifiant même en présenced’attaques sur le signal→ mise en place de contre-mesuresspécifiques aux attaques

Robustesse à la compression

Attaque : non-représentation des composantes hautes fréquences

Contremesure : limiter la bande de fréquences de l’identifiant (Fc choisidans les basses fréquences, typiquement 11 kHz pour résister au MP3à 128 kbits/s)

185 / 207




Cropping

Attaque : le signal analysé estun extrait du signal tatoué

Contremesure : répétition del’identifiant tout au long du signalde sorte que le détecteur traiteune valeur moyenne decorrélation

Avantage : augmentation duRTS après projection dans ladirection d

185 / 207




Time-Stretching

Attaque : modification de la fréquence d’échantillonnage du signal reçuen augmentant ou diminuant la vitesse de lecture de ce dernier, voiresuppression d’échantillons au hasardContremesure : mise en place d’un mécanisme de synchronisationavec corrélation par fenêtre glissante : calcul de la fonctiond’intercorrélation entre y et d et recherche de maxima indiquant

1 la position éventuelle d’un identifiant2 une mesure de ressemblance entre le signal y et d

Incovénient : augmentation du coût de calcul du récepteur

185 / 207




Ajout de bruit

Attaque : augmentation de σ2p

Contremesure :forcer le pirate à ce que le bruit qui met en déroute le récepteur soitsuffisamment puissant pour dégrader la qualité du signal audio, enaugmentant le RTSutilisation d’un modèle psychoacoustique, donnant (sous la forme d’unseuil) la DSP maximale d’un bruit ajouté mais inaudible en présence dusignal hôtemise en forme de l’identifiant par un filtre H(z) dont la réponse enfréquence égale le seuil de masquageAu récepteur, inversion de la mise en forme psychoacoustique avecrecalcul du masque avant calcul des corrélations

Avantage : Augmente globalement les performances du récepteurmême en l’absence d’attaque mais si introduit des erreurs à cause durecalcul des seuils

185 / 207




Example (Margaret Thatcher et les fuites d’information (1986))

Des fuites d’information vers la presse étaient à déplorer dans lesministères britaniques. Pour remonter à la source, les traitements detextes ont été reprogrammés, de sorte à ce que l’"espace entre lesmots" soit unique

186 / 207



Tatouage pour la traçabilité : lefingerprinting

+

’DA3 0E1’

Le petit poucet

+

’123 AFC’

BDD des ventesLivre Marque AcheteurLe petit poucet ’123 AFC’ AliceLe petit poucet ’DA3 0E1’ Bob...

Serveur

Information cachée = Licence numériqueRécepteur = Décodeur = "quelle licence ?"Effet dissuasif (vente de livres audios), voire répressif (cinéma)

187 / 207



Contraintes & critères de performances

Propriété TraçabilitéContenu caché Marque Licence

Débit ↓↓ ≈Imperceptibilité ↑↑ ↑↑

Robustesse ↑↑ ↑↑Coût ≈ ↑

Récepteur détecteur décodeurPerformance Pe/Pfa TEB

188 / 207



Une chaîne de communication

ModulationCorrélation

Dictionnaire d’émissionEMETTEUR CANAL RÉCEPTEURD = {dm}m=0..M−1

Dictionnaire d’émissionD = {dm}m=0..M−1

Décision

p(n)

α

x(n)

Signal

v(n)

moduléSignal Tatouage

t(n)

Bits

bl y(n) y(n) bl

Signal

audio

tatoué

Objectifs

Licence binaire {bl}l∈[0..L−1] avec débit d’insertion moyen (≈ 100 bits/s)

Robustesse élevée aux manipulations standards et aux attaques(compression, filtrage, désynchronisation) impliquant descontre-mesures identiques au cas précédent

189 / 207



Modulation

Dictionnaire D = {d0,d1}

Orthonormalisé d0 = d⊥1 et||d0||2 = ||d1||2 = 1

Vecteurs SS, de durée Ns

ModulationSur la l-ième fenêtre de signal, le bit bl est modulé de sorte quev = dbl

190 / 207



Décodeur

Objectif

Décoder l’information cachée, i.e. la séquence de bits {bl}l=1..L

Corrélateur

Projection de y sur l’espace vectoriel engendré par DRecherche de similitudes

bl = arg maxi=0,1

〈y,di〉Ns

191 / 207



Performances

Critères de performance

Pe = Prob(bl 6= bl ), probabilité d’erreur de décodage, estimée par le

Taux d’Erreur Binaire TEB =nbre de bits décodés avec erreur

nbre bits total

Hypothèses de calcul

Signal audio reçu y = x + αdbl + p avec x (resp. p) vecteur de Nsréalisations d’un bruit blanc N (0, σ2

x ) (resp. N (0, σ2p))

Donc ∀i ∈ {0,1}, ci =〈x + p,di〉

Ns= N

(0,

(σ2x + σ2

p)σ2di

Ns

)+

α

{1 , si i = l0 , si i 6= l

192 / 207



Performances

Probabilité d’erreur

Pe =12

erfc

(√α2Ns

(σ2x + σ2

p)

)

Paramètres d’influenceLe RTS et le RTB, d’où la mise en forme du signal modulé suivant leseuil de masquage pour augmenter le RTS et forcer le pirate àintroduire un bruit dégradant la qualité du contenu pour mettre endéfaut le détecteur

Remarque : Résultat classique de communication numérique pourune chaîne à deux bruits : le bruit audio x et le bruit de perturbation p

192 / 207



Réglage du gain ciblé sur l’inaudibilité : versun tatouage semi-informé

ModulationCorrélation

Dictionnaire d’émissionEMETTEUR CANAL RÉCEPTEUR

Dictionnaire de réceptionD = {dm}m=0..M−1D = {dm}m=0..M−1

H(f )

MPA

Décision

p(n)

α

x(n)

Signal

v(n)

moduléSignal Tatouage

t(n)

Symbole

sl y(n) y(n) sl

Signal

audio

r(n)

Signalblanchitatoué

G(f )

Introduction d’un filtre de mise en forme perceptuelle H(z) adaptatif

Introduction en réception d’un égaliseur (type Wiener, FiltreBlanchissant) pour inverser la mise en forme

193 / 207



Performances : TEB vs. débit (sansperturbations)

FIGURE: Paramétrisation : Dictionnaire avec M = 16 vecteurs, 20 signauxaudio, 104 bits

194 / 207



Réglage du gain ciblé sur le décodeur : versun tatouage informé

Information adjacente à l’emetteur : le bruit audioDétection sans erreur (en l’absence de bruit) du bit bl = 0 si

〈y,d0〉Ns

>〈y,d1〉

Ns⇒ 〈x,d0〉

Ns+ α >

〈x,d1〉Ns

Adaptation du gain α à la direction du signal audio

Paramétrisation : R = 50 bits/s, ε = 0.2195 / 207



Robustesse

FIGURE: Paramétrisation : 20 signaux mono, Débit 206 bit/s, avec : 1=Sansperturbation, 2,3=Compression MPEG (96, 64 kbit/s), 4,5=Filtrage*(passe-haut 250 Hz, passe-bas 9 kHz, 6=Ajout d’écho (40ms, facteur 0.1),7=Sous-échantillonnage (22.05 kHz), 8=Quantification (12 bits), 9=BBAG (30dB), 10=Amplification (1/2), 11=Dynamique* (1 :2)

196 / 207




Example (Stéganographie linguistique : Tombe de JohnMcCaffrey (Montréal))

JOHNFree your body and soulUnfold your powerful wingsClimb up the highest mountainsKick your feet up in the airYou may now live foreverOr return to this earthUnless you feel good where you are !Missed by your friend

Example (Encre invisible)

197 / 207



Tatouage pour la transmission de donnéescachées

Tatouage = canal de transmission d’une information supplémentaire

Récepteur = Décodeur→ Relecture de l’information

198 / 207




Example (Projet scientifique)

Information à destination d’une application cible adjointe au player :ANR DReaM (Séparation de sources informées pour les CD audio),ANR Artus (Téletexte par animation d’un clône à destination desmal-entendants)

Cadre Forensics/Steganographique : Transmission secrète illégale(pédographie, terrorisme)

198 / 207




Pertubations dans le canal

Absence de pirate donc pas de contraintes de robustesse si ce n’estaux manipulations (de traitement du signal) autorisées sur le contenu

Présence potentielle d’un espion cherchant à intercepter lacommunication secrète→ contrainte d’indétectabilité statistique pourcontrer la steganalyse

198 / 207



Contraintes & critères de performances

Propriété Traçabilité Contenu Steganographieaugmenté

Contenu caché Marque Licence Bits BitsDébit ↓↓ ≈ ↑↑ ↑

Imperceptibilité ↑↑ ↑↑ ↑↑ ↑↑Robustesse ↑↑ ↑↑ ↓ ↓↓

Coût ≈ ↓ ↓↓ ↓↓Récepteur détecteur décodeur décodeur décodeur

Performance Pe/Pfa TEB TEB TEBIndétectabilité ↓↓

TABLE: Contraintes en fonction de l’application

199 / 207



Le Least Significant Bit

Principe

Technique substitive qui remplace le bit de point faible parl’information de tatouage

Example

LSBInformation à cacher : "hello" = ’01000100...’ de 1er bit à cacher b1 = 0

Emetteur : Pour la n-ième composante hôte x(n) =‘1010 0011 1010 0001’ (quant. 16 bits), la composante tatouée est y(n)= ‘1010 0011 1010 000bn’

Récepteur : relecture du message par relecture des bits de poids faible

200 / 207



Le Least Significant Bit

Performances

Avantages : Haute capacité d’insertion, faible dégradation perceptive

Inconvénients : très faible robustesse, très forte détectabilité (analysestatistique des LSB sur une image originale (loi non uniforme) vs surimage tatouée (loi uniforme))

200 / 207



Tatouage Haute Capacité

(Insertion)EMETTEUR

CANAL (Détection)RÉCEPTEUR

Signaltatoué

Signaltatoué dégradé

InformationreçueInformation Tatouage

Signal audio Perturbations

Side information : Pleine exploitation de la connaissance du signalaudio pour le choix de la stratégie d’insertion

Tatouage = f( Information ) : C =12

log2

(1 +

α2

σ2x + σ2

p

)bits

Tatouage = f( Information, Signal audio ) : C =12

log2

(1 +

α2

σ2p

)bits

201 / 207



Interprétation géométrique : les défauts desstratégies SS & Le cône de Miller et Cox

t = αv

Région d’inaudibilité Ri

limitée par la puissancedu tatouage

Région de détectioncorrecte Rd

(x + t)t d1 > (x + t)t d0

Tatouage à l’intersectiondes deux régions

Rd

Rid1

t = αd1

x

d0d2

d3

Configuration :Dictionnaire avec M = 2 vecteurs,

Bruit de canal nul,Transmission du symbole ’1’

202 / 207




Configurationtrès favorable :Tatouage non informésolution t = αd1

favorable :Existence d’un tatouagesolution

topt ∝ d1 − d0

défavorable :Garantir la proximité de larégion de détection et dusignal audio

Rd

Rid1

t = αd1

x

d0d2

d3



202 / 207






topt ∝ d1 − d0


Rd

Ri

t = αd1

d1

topt

d0

x

d2

d3



202 / 207






topt ∝ d1 − d0


Rd

d1

d0x

Ri

t = αd1

topt2

topt1

d2

d3



202 / 207



Costa : vers un dictionnaire structuré(Modèle BBAG)

Objectif

Diminuer l’écart entre les régions de détection

Rd

Ri

d0

d1

t = αd1

x

D = {d0, d1}t = αdbl

Rd

Ri

Rd

Rd

Rd

xd1

0

d30d0

0

d11

d01

d31

d21

d20

t = αd31

D0 ={dm

0 }m=0..M−1,D1 == {dm}m=0..M−1

t = αdqbl

q = arg maxp∈[0,Q−1]

xtdpk

203 / 207



Performances (Modèle BBAG)

FIGURE: Stratégie sans dictionnairestructuré

FIGURE: Stratégie avec dictionnairestructuré, Paramétrisation :Dictionnaire M = 2 vecteurs,Sous-dictionnaire biorthogonaux, 106

bits, NbRSB rapport entre l’énergie dutatouage et la puissance audio

Limite : structuration du dictionnaire204 / 207



Scalar Costa Scheme (quantif. scalaire)

Insertion : y(n) = Q(x(n) + (2b − 1) ∆

4

)− (2b − 1) ∆

4

Détection : recherche de l’atome le plus proche du signal reçu

Optimisation de ∆ pour atteindre une robustesse cible

∞

0

−∞

bit 0bit 1

x

yτ 2

p

∆

205 / 207



QIM/STDM (Quantification vectorielle)

QIM (Quantization Index Modulation)

Généralisation au cas de M symboles (codage de log2(M) bits) sur labase de M quantifieurs qm

Insertion du symbole k : y = Qk (x)

Détection : k = arg minm∈[0,M−1] ||y−Qm(y)||2

STDM (Spread Transform Dither Modulation)

QIM appliqué sur la projection du signal hôte x sur un vecteur d

PerformancesDébit proche de la capacité théorique

206 / 207



Conclusion : le quatuor infernal

Sé urité

Capa ité

Imper eptibilité

Robustesse

Tatouage : profiter des défauts des systèmes de perception pour ajouterde l’information à un contenu (inversement à la compression)

Différentes techniques avec une contrainte absolue : l’imperceptibilité etdes contraintes spécifiques à l’application (sécuritaire, contenuaugmenté, ...)

Un triple compromis : débit, robustesse, sécurité dépendant del’application

Problème de législation et d’interférences entre usages

207 / 207


Enseignante : Cléo BARAS, [email protected] ENSIMAG …cleo.baras/mes_images/... · 2010....

Documents

Transcript of Enseignante : Cléo BARAS, [email protected] ENSIMAG …cleo.baras/mes_images/... · 2010....