Les ressources documentaires du Cléo (Revues.org, Calenda, Hypothèses)
Enseignante : Cléo BARAS, [email protected] ENSIMAG …cleo.baras/mes_images/... · 2010....
Transcript of Enseignante : Cléo BARAS, [email protected] ENSIMAG …cleo.baras/mes_images/... · 2010....
Introduction
Multimédia : de la compression au tatouage
Enseignante : Cléo BARAS, [email protected]
ENSIMAGAnnée universitaire 2010-2011
1 / 207
Multimédia : de la compression au tatouage
Introduction
Planning du cours Multimédia14h-17h salle Contenu IntervenantCours-TD H204 Bases de traitement
d’imagesJ. CHANUSSOT
Cours-TD H202 Compression : Généralités,codage sans pertes
C. BARAS
Cours-TD H202 Compression : Codage avecperte
C. BARAS
Cours H202 Compression audio C. BARASTP E301 Compression audio C. BARASCours H202 Compression d’images J. CHANUSSOTTP E301 Compression d’images J. CHANUSSOTCours H202 Compression vidéo J. CHANUSSOTCours-TD H202 Indexation d’image N. LE GUYADERTP E301 Compression vidéo J. CHANUSSOTCours H202 Tatouage C. BARASTP E301 Tatouage C. BARAS
2 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Première partie I
Généralités
2 Définition de la compression
3 Normalisation
4 Besoins actuels (l’exemple de l’audio)
5 Architecture d’un codec
3 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
La compression, intuitivement ...
Qui ?
Audio, vidéo, fichiers binaires, ...
Comment ?
Changement de format avec suppression de la redondance(répétition), conservation de l’information pertinente (perçue)
Pourquoi ?
Diminution de l’espace de stockage, ...
4 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
La compression, intuitivement ...
Qui ?Audio, vidéo, fichiers binaires, ...
Comment ?Changement de format avec suppression de la redondance(répétition), conservation de l’information pertinente (perçue)
Pourquoi ?Diminution de l’espace de stockage, ...
4 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Cible de la compression
Definition (Cible : le Multimédia)
Tout signal (fichier) numérique, l’acquisition par CAN a impliquant unéchantillonnage et une quantification n’étant pas prise en comptedans ce cours
a. Convertisseur Analogique Numérique
Example
Parole, musique, images fixes (dont satellitaires, médicales), vidéo,texte, fichiers binaires ...
5 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Objectifs de la compression
1 Augmenter l’efficacité du stockage sur support dédié (DVD 1, Super Audio CD)ou sur mémoires (clés USB, IPod, ...)
Example (Quelques codecs)
Audio : PCM (12 titres sur un CD de 700 Mo)→ MP3 3 (12 titres à 256 kbit/s sur70 Mo)
Vidéo : DVD MPEG-2 (1 vidéo de 720*576 sur 4, 7 Go)→ DivX (1 vidéo sur 700Mo)
Radiographie : SPIHT-3D ()
a. Digital Versatile Discb. Moving Picture Experts Groupc. MPEG 2 1 Layer 3
6 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Objectifs de la compression
2 Augmenter l’efficacité de la transmission sur canal de diffusion (TV/radio nu-mérique) ou de communications (téléphonie, visiophonie sur réseaux RTC 1,RNIS 2, IP 3, GSM 4)
Example (Parole sur réseau GSM)
Débit source (après échantillonnage à 8kHz) : 8.103 ∗ 16 ∗ 1 = 128 kbits/s
Débit canal “radio mobile” GSM a : 13.2 kbits/s
a. Communication - Codeur de parole RTE-LTP
a. Réseau Téléphonique Commuté, liaison 2 Mbit/sb. Réseau Numérique à Intégration de Services, liaison 2 Mbit/sc. Internet Protocold. Global System of Mobile, liaison 9, 6 kbit/s
6 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Objectifs de la compression
3 Profiter des avantages de la communication numérique : fiabilité, contrôle,cryptage...
4 Améliorer la description d’un signal pour augmenter l’efficacité d’un traitementaval (reconnaissance par exemple)
6 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Sources de redondance dans un signalnumérique
1 Redondance du signal, "‘de sens"’→ Traitement du signal (propre à lanature du signal)
Example
Linguistique : "‘Je monte en haut"’, "‘Après la pluie, vient le beau temps"’ ;message systématique n’apportant pas d’information
Audio : un la3 de diapason, sinusoïde de fréquence 440Hz, joué pendant 10s ;prédictibilité temporelle mesurable par corrélation
2 Redondance de codage, "‘d’écriture"’
ExampleAlphabet phonétique : (alpha) (tango) (charlie)Alphabet latin : a t c
⇒ Mesure de la quantité d’informations dans un signal et dans uncode
7 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Définition de la compression
Definition (Compresser c’est :)
1 Rechercher l’efficacité maximum (de moindre redondance) dans lareprésentation de l’information utile portée par les signaux
2 Coder : Convertir le signal en une représentation numérique efficace(séquence binaire la plus économique possible), le flux codé(bitstream)
⇒ Un problème d’optimisation sous contraintes qui aboutit à unsystème de compression
8 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Système de compression
(En)codeurSignal x(n)
(.wav)Flux codé bi
(.mp3)
Décodeur SortieSignal x(n)
(.wav)
Stockage ou canal Lecteur
Vocabulaire
Flux codé (bitstream) = Représentation du signal compressé
Codec = { encodeur + décodeur }
9 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Critères en jeu
Definition (Débit et Taux de compression)
Débit : Ressource binaire (nombre de bits) utilisée pour coder 1s designal
Taux de compression : rapport de débits sans et avec compression
Definition (Qualité)
Qualité perçue du signal restitué par rapport au signal original,évaluée par des mesures :
des distorsions/dégradations
du "‘bruit de codage"’ (différence entre le signal original et le signalcompressé)
pour statuer sur la transparence du codec et sur le confort del’utilisateur.
10 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Critères en jeu
Definition (Complexité)
Sophistication de l’algorithme, incluant :la charge de calcul par unité de temps : faisabilité du temps-réel,puissance du microprocesseur
l’occupation des mémoires du système : capacité des mémoires
retard algorithmique ou délai de restitution dû aux calculs : faisabilité dutemps-réel
10 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Compromis en compression
Complexité
Qualité
DébitUn système est optimal :
s’il maximise la qualité pour undébit donné
s’il minimise le débit pour unequalité donné
Complexité au 3ème plan
11 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Classes applicatives
Definition (Compression sans perte (noiseless coding))
Compression réversible (permettant la reconstruction du signaloriginal à l’identique)
Example
Imagerie médicale pour diagnostic
Mélomane : FLAC
12 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Classes applicatives
Definition (Compression avec pertes (noisy coding))
Compression irréversible avec élimination de l’information « inutile »au prix de l’introduction de dégradations (ne permettant pas dereconstruire le signal d’origine à l’identique)
Example
audio ( 44,1.103 ∗ 16 ∗ 2 ≈ 1.4 Mbit/s) sur réseau GSM (13.2 kbit/s)pour reconnaissance automatique de morceaux (Shazam sur iPhone)
12 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Normalisation
Definition (Norme (industrielle))
Référentiel commun et documenté destiné à harmoniser l’activitéd’un secteur, ayant un nombre suffisant d’applications potentielles
Le processus de normalisation
1 Groupe de travail, experts de la recherche et de l’industrie2 Identification des besoins3 Propositions avec sélection de la plus prometteuse (performante,
consensuelle) qui est implémentée puis distribuée librement4 Critique et amélioration progressive5 Rédaction du standard
13 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Normalisation
Dans le cas de la compression, la norme inclut :1 La syntaxe du bitstream (en-tête, format des frames)2 Structure du codec pour une application donnée (blocs fonctionnels et
spécifications) : Fonctionnement du décodeur + Une propositiond’encodeur a
3 Structure du système réalisant la mise en forme complète, l’accès et letransport des données (synchronisation, multiplexage de flux audio etvidéo, correction d’erreurs...)
4 Protocoles de tests des systèmes5 Software / code source
a. non figé, pouvant être modifié tant qu’il respecte la syntaxe du bitstream
13 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Nécessités de la normalisation
Commercialement : Assurer l’interopérabilité entre unemultitude de produits propriétaires
Incompatibilités entre produits & décodeurs propriétaires (spécifiques àl’application)
Recours au transcodage a, mais au prix d’une complexitésupplémentaire et de dégradations de qualité
a. Transformation d’un bitstream en un autre sans décodage/reencodage
Example (Stockage)
AC3, Dolby - ATRAC, Mini-Disc Sony
Example (Streaming)
Real Audio, Real Networks - Microsoft, Windows media
14 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Nécessités de la normalisation
Scientifiquement : Classifier et valider les algorithmesperformants
Repères pour les industriels et la recherche
Consensus entre industriels
14 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Quelques organismes de standardisation
1 UIT-T 1 :Parole en bande téléphonique sur réseaux fixes + paquetsTéléphonie, visiophonie, VoIP
2 ISO-IEC 2 :Musique en bande Hi-FiBaladeurs, DVD, TNT, streaming, brodcasting, Digital Radio MondialeImage fixe, vidéo
3 Organismes militaires : INMARSAT 3, OTAN 4
Transmissions (data ou parole) par satellitesCommunications militaires
1. Union Internationale des Télécommunications2. International Standardization Organization3. INternational MARitime SATellite organization4. Organisation du traité de l’Atlantique Nord
15 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
L’existant en audio
Qualité Parole MusiqueBande télé-phonique
Bandeélargie
Bande FM Sons HiFi Multipiste
Débit (kb/s) (< 4 kHz) (< 7 kHz) (< 15 kHz) (< 22 kHz) (< 24kHz)
≥ 512256 MPEG128 MUSICAM64 G.711
(PCM)G.722 (SB-ADPCM)
SB+MPA
32 G.721(ADPCM)
G.722.1
16 G.728 (LD-CELP)
8 G.729(A-CELP)
4≤ 2
16 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Poursuivre l’effort en compression
les données sont de plus en plus riches (vidéophonie, TVHD...)
le nombre des utilisateurs augmente
le coût a toujours intérêt à être réduit (fibre optique chère)
la capacité du canal radio reste limitée (d’où le regain d’intérêtconsidérable pour la compression de parole avec l’essor de latéléphonie mobile, et les travaux en TVHD)
le codage peut « rattraper » les supports : un film sur un CD audio (700Mo) avec MPEG4
17 / 207
Multimédia : de la compression au tatouage
Définition de la compression Normalisation Besoins actuels (l’exemple de l’audio) Architecture d’un codec
Architecture globale d’un système decompression
Quantification CodagebinaireTransformation
T Q C
CODEUR
Transformationinverse binaire
DécodageQuantificationinverse
C−1Q−1T −1
DÉCODEUR
Transmission ou stockage
Flux codébi
Signal
x(n)
Signaldécodé
x(n)
Blocs imbriqués de manière plus ou moins complexe
T linéaire / non-linéaire, analogique / numérique (avec CAN/CNA) et denature physique variée
18 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Deuxième partie II
Outils pour la compression : lecodage sans perte
Objectif : Trouver le code binaire le plus efficace possible pourreprésenter un signal discrétisé sans perte de qualité6 Éléments de théorie de l’information7 Codage à longueur fixe8 Mesure de l’information : l’entropie9 Codage à longueur variable
Méthodes statistiquesShannon - FanoAlgorithme de Huffman
Méthodes arithmétiques : codage arithmétiqueMéthodes canoniques : RLEMéthodes avec dictionnaire : LZW
19 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Rappel de théorie de l’information
Definition (Source d’information simple, alphabet)
On suppose qu’un signal est la suite de N réalisations d’une variablealéatoire discrète X , appelée source d’information simple (sansmémoire).X prend ses valeurs dans un alphabet A = {x0, x1, x2, ..., xS−1} de Ssymboles et suit une certaine loi de probabilité imposant{pi = pX (xi ) = Prob(X = xi ),∀i = 0..S − 1}.
Remarque : La loi de probabilité indique la fréquence d’apparition dusymbole xi dans le signal, i.e. le rapport entre le nombre d’occurrencesde xi dans le signal et le nombre N de symboles dans le signal.
20 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Rappel de théorie de l’information
Example (Texte)
Message = "‘Bonjour"’7 réalisations de X dans A = alphabet latin (avec S = 128)
Example (Pile/Face)
Message = "‘PFPFFPF"’7 réalisations de X dans A = {P,F} (avec S = 2) de loi deprobabilité uniforme
Example (1s de signal audio (.wav) a)
a. discrétisé sur 16 bits et avec Fe = 44.1 kHz
Signal = "‘-1 ; 32000 ; 45 ; 3 ; -55 ; ..."’44100 réalisations de X dans A = [−215; 215 − 1] (avec S = 216) deloi de probabilité Laplacienne
20 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Codage sans perte ou entropique
Definition (Codage sans perte ou entropique d’une source X )
Le codage d’une source X est une application (bijective) qui, àchaque symbole xi pris par X dans l’alphabet A, associe un mot decode binaire a ci de longueur li :{
A 7→ Cxi → ci
a. généralisable à n’importe quel alphabet adapté au canal ou au support de sto-ckage
Contrainte : un code uniquement décodable vérifiant lacondition du préfixe
Aucun mot du code ne doit être un préfixe d’un autre mot du code a
a. pour éviter d’introduire des séparateurs entre mots de code pour le décodage
21 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Codage à longueur fixe : le BCD
Definition (Binary coded decimal (BCD))
Chaque symbole xi est codé (indépendamment de la loi deprobabilité de X ) par la représentation bJ−1...b0 de son indice i en
base 2 sur L =⌈
log2(S)⌉
bits, avec : i =L−1∑j=0
bj2j .
Example (Alphabet à S = 8 symboles)
xi x0 x1 x2 x3 x4 x5 x6 x7b2b1b0 000 001 010 011 100 101 110 111
Performances
Lmoy = dlog2(S)eCodage optimal lorsque S est une puissance de 2 (Lmoy = log2(S)) et laloi de probabilité de X est uniforme (symboles équiprobables)
22 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Un exemple de codes
Code 1 : x0 x1 x2 x300 01 10 11 Code 2 : x0 x1 x2 x3
0 10 110 111
Example (X : Loi uniforme)
Message x0 x2 x1 x2 x3 ...Message codé avec code 1 00 10 01 10 11 ...Message codé avec code 2 0 110 10 110 111 ...
23 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Un exemple de codes
Code 1 : x0 x1 x2 x300 01 10 11 Code 2 : x0 x1 x2 x3
0 10 110 111
Example (X : Loi non uniforme avec p0 =34
et p1,2,3 =1
12)
Message x0 x2 x0 x0 x3 ...Message codé avec code 1 00 10 00 00 11 ...Message codé avec code 2 0 110 0 0 111 ...
Plus un symbole est probable, plus il y a d’intérêt à le coder avec peude bits⇒ il apporte peu d’information
23 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Information propre
Definition (Information propre d’un symbole xi )
Quantité d’information amenée par l’apparition du symbole xi :
I(xi ) = − log2(pi)
bit/symbole
Plus un symbole est probable, moins il amène d’information, cad plusle nombre de bit qui l’encode peut être petit
24 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Entropie
Definition (Entropie d’une source X )
Quantité d’information moyenne de la source :
H(X ) =S−1∑i=0
pi I(xi ) = −S−1∑i=0
pi log2(pi)
bit/symbole
H(X ) = Limite inférieure du nombre moyen de bits nécessaires aucodage d’un signal, appelée OPTA a
a. Optimum Performance Theoretically Attainable
25 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Source binaire sans mémoire
Example (Deux symboles x0 et x1 de probabilités respectives p et1− p)
H(X ) = −p log2(p)− (1− p) log2(1− p)
26 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Codage à longueur variableObjectif : Répartir la ressource binaire pour coder la source X
1 en prenant en compte de la loi de probabilité des symboles xi
2 en autorisant des mots de code de longueur variable
3 en minimisant la longueur moyenne des mots du code : Lmoy =S−1∑i=0
pi li
voire en atteignant la limite donnée par l’entropie : Lmoy −→ Lopt = H(X )
4 et en assurant la réversibilité du codage (conditon du préfixe)
Theorem (Codage d’une source discrète sans mémoire)
Un tel code existe et H(X ) ≤ Lmoy ≤ H(X ) + 1.
Definition (Facteur de compression d’un code entropique)
τ =Lmoy
dlog2(L)e≈ Taille du fichier compressé
Taille du fichier non compressé
27 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Algorithme de Shannon - Fano
Principe : Construction itérative d’un arbre de codage
1 Symboles triés en fonction de leur probabilité d’apparition encommençant par les + fréquents
2 Division en deux sous-ensembles de probabilités d’apparitions cumulésles plus proches possibles
3 Affection du ’0’ à la première a et du ’1’ à la seconde4 Itération sur les deux sous-ensembles jusqu’à ce que chaque symbole
soit devenu une feuille de l’arbre
a. Gain de puissance à l’émission
28 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Exemple
Example (Source X dans A = {a,b, c,d ,e} de probabilitésd’apparition : )
xi a b c d epi 0.19 0.17 0.14 0.39 0.11
1 Construction du code2 Codage du message "‘aeddcadb"’3 Decodage du message "‘"’4 Estimation du taux de compression5 Conclusion
29 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Performances
1 Codage sous-optimal mais garantissant que les longueurs des mots decode sont à 1 bit de leur idéal théorique (information propre I(xi ))
2 Sa mise en oeuvre nécessite :un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesune table de transcodage connue du récepteur pour le décodage (decomplexité croissante avec la taille de l’alphabet)cette table peut varier d’un signal à l’autre
30 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Algorithme de Huffman
Principe : Construction progressive d’un arbre en partant desnoeuds terminaux
1 Partant de la liste de symboles {x0, ..., xS−1} et de la liste de leurprobabilité d’apparition {p0, ..., pS−1}
2 on sélectionne les deux symboles les moins probables pour créer deuxbranches dans l’arbre que l’on étiquette par les bits ’0’ et ’1’.
3 On actualise les deux listes en rassemblant les deux symboles utilisésen un super-symbole dont on calcule la probabilité d’apparitioncumulée (somme des probabilités des deux symboles sélectionnés).
4 On recommence les deux étapes précédentes tant qu’il reste plus d’unsymbole dans la liste.
5 Les mots de code sont lus en parcourant l’arbre en sens inverse.
31 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Exemple
Example (Source X dans A = {a,b, c,d ,e} de probabilitésd’apparition : )
xi a b c d epi 0.19 0.17 0.14 0.39 0.11
1 Construction du code2 Codage du message "‘aeddcadb"’3 Decodage du message "‘"’4 Estimation du taux de compression5 Conclusion
32 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Performances
1 Codage optimal parmi les codes vérifiant la condition du préfixe maisimpose le codage d’un symbole sur un nombre de bits entier
2 Sa mise en oeuvre nécessite là encore :un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesune table de transcodage connue du récepteur pour le décodage et quipeut varier d’un signal à l’autre
33 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Codage arithmétique
Codage (non plus symbole après l’autre) mais d’une suite desymboles ± longue puisque qu’une suite de symboles est remplacéepar un réel r ∈ [0; 1[ lui-même codé en binaire (en fonction descapacités de codage de la machine).
Principe pour coder une suite de symboles x(1), x(2), x(3), ...
1 Partitionnement de l’intervalle [0; 1[ en S sous-intervalles chacun affectéau symbole xi de A et dont la longueur est proportionnelle à pi
2 Sélection du sous-intervalle associé à la valeur de x(1)
3 Itération du partitionnement du sous-intervalle sélectionné pour lecodage du symbole x(2) suivant ; etc... On aboutit finalement à unintervalle [a; b[.
4 Choix du réel r ∈ [a; b[ codable en virgule fixe a, i.e. r =M∑
i=1
bi2−i , avec
les M bits mis à disposition par la machine
a. ou flottante suivant l’architecture des machines34 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Exemple
Example (Source X dans A = {a,b, c,d ,e} de probabilitésd’apparition : )
xi a b c d epi 0.19 0.17 0.14 0.39 0.11
1 Construction du code2 Codage du message "‘aeddcadb"’3 Decodage du message "‘"’4 Estimation du taux de compression5 Conclusion
35 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Performance
Codage plus performant que Huffman (sauf si les poids desfeuilles/noeuds/racines sont des puissances de 2) ; mais
introduit des retards au décodage, puisqu’on ne peut pas commencer àdécoder tant que la séquence codée n’a été entièrement reçue
Dépendant de l’architecture matériel du codecSa mise en oeuvre nécessite :
un pré-traitement du signal à coder pour estimer les probabilitésd’apparition des symbolesd’envoyer la densité de probabilité au récepteur à moins d’utiliser uneestimation adaptative des probabilités d’apparition des symboles (codagearithmétique adaptatif avec intervalle variant au fur et à mesure del’actualisation des probabilités d’apparition)
36 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Codage par plage / Run-length encoding(RLE)
Adéquate pour de longues suites de symboles de même valeur
Principe
Remplacer chaque suite de symbole xia par le couple (ni , xi )
b où ni estle nombre d’occurrence du symbole
Le couple peut être codé en ASCII ou avec un codage de Huffmanaprès recensement de tous les couples possibles
a. passage ou runb. paquet RLE = (compteur de passage ou run count, valeur de passage)
37 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Performances
Performances correctes pour des sources binaires ;
Dans le cas des images, est appliqué par plans de bits
Adapté au contenu répétitif
38 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Lempel-Ziv-Welch (LZW) (1/4)
Codage (non pas de symboles individuels mais) de suites decaractères
Principe : Construction dynamique d’une table de traduction,initialisée avec les caractères de l’alphabet
Chaque nouvelle chaine rencontrée est stockée dans le tableau à lapremière adresse disponible a, et est codée par l’adresse a
39 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Encodeur
1
2
3
4
dans la table ?Chaine+c existe
Initialisationtable de traduction
Chaine = c
c = lire_car_suivant()
c = premier caractère à coder
NON
OUI
Chaine = Chaine + c
Code en sortie = adresse_de( Chaine )*1ère_adresse_libre = Chaine + c
ContenusAdresses
000001002
0FF100101102
FFF
...
...
000102
FF
Chaine“ 1\n 1\n 1A” = ’20 31 0A 20 31 0A 20 41’
40 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Decodeur
Initialisationtable de traduction
Sortie← Chaine
Sortie← Chaine
Code = lire_code_suivant()
Chaine_prcdte = Chaine_crnte
Chaine_crnte = *Code
Chaine_crnte = *CodeCode = lire_code_suivant()
c = 1er_car( Chaine_crnte )*1er_adresse_libre = Chaine_prcdte + c
Chaine_prcdte = Chaine_crnte
ContenusAdresses
000001002
0FF100101102
FFF
...
...
000102
FF
Code’020 031 00A 100 102’
41 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Performances
Mise en oeuvre en pratique avec des adresses codées sur 12 bits etavec un bouclage sur la table en cas de dépassement
Codec rapide à implémenter mais non optimal
Taux de compression d’autant plus faible que les séquences decaractères répétées sont longues
Décodage avec 1 caractère de retard
42 / 207
Multimédia : de la compression au tatouage
Éléments de théorie de l’information Codage à longueur fixe Mesure de l’information : l’entropie Codage à longueur variable
Conclusion sur le codage sans perte
Pour une source x prenant un nombre fini de valeurs/symboles, un code(sans perte) optimal peut être conçu pour la représenter
Le code est optimal (efficacité maximum dans l’utilisation des mots decode et de la ressource binaire) lorsque la loi d’apparition des symbolesde la source est uniforme
43 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Troisième partie III
Outils pour la compression : lecodage avec pertes : la
quantification10 Définitions
QuantificationBruit de quantification
11 Quantification scalaireQuantification Scalaire Uniforme (QSU)Quantification Scalaire Non Uniforme (QSNU)
12 Quantification vectorielle13 Prédiction linéaire14 Conclusion
44 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Rappel : système de compression
Quantification CodagebinaireTransformation
T Q C
CODEUR
Transformationinverse binaire
DécodageQuantificationinverse
C−1Q−1T −1
DÉCODEUR
Transmission ou stockage
Flux codébi
Signal
x(n)
Signaldécodé
x(n)
45 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Première approche de la quantification
Dynamique de x Quantifieur
min = −2
max = 2
-1.5
-0.5
0.5
1.5
x= Q(x)
Symboles
0
1
2
3
BCD
00
01
10
11
→ Bitstream
46 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Première approche de la quantification
Dynamique de x Quantifieur
min = −2
max = 2
-1.5
-0.5
0.5
1.5x
= Q(x)
Symboles
0
1
2
3
BCD
00
01
10
11
→ Bitstream
46 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Première approche de la quantification
Dynamique de x Quantifieur
min = −2
max = 2
-1.5
-0.5
0.5
1.5x
= Q(x)
Symboles
0
1
2
3
BCD
00
01
10
11
→ Bitstream
46 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Première approche de la quantification
Dynamique de x Quantifieur
min = −2
max = 2
-1.5
-0.5
0.5
1.5x
= Q(x)
Symboles
0
1
2
3
BCD
00
01
10
11
→ Bitstream
46 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Première approche de la quantification
Dynamique de x Quantifieur
min = −2
max = 2
-1.5
-0.5
0.5
1.5x
= Q(x)
Symboles
0
1
2
3
BCD
00
01
10
11
→ Bitstream
46 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Objectif de la quantification
Objectif : Partant d’une source x pouvant prendre une infinité de valeur,l’arrondir à un nombre fini de valeurs formant les symboles d’un codesans perte
Les symboles doivent permettre la mise en place d’un code sans pertele plus efficace possible (idéalement un code optimal)
L’arrondi doit introduire le moins d’erreurs possibles
Le code (quel qu’il soit) étant sans perte, on pourra s’interésseruniquement au phénomène d’arrondi
Problématique : Quels représentants choisir, quel arrondi choisir dèslors que la statistique de la source est prise en compe ?
47 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Définition de la quantification Q
xQ
Trouver le plusproche voisin
Indice iQ−1
Recherche dansle dictionnaire
xi
D = {x0, x1, ..., xN−1} D = {x0, x1, ..., xN−1}
Definition (Quantification Q + Q−1)
Application faisant correspondre à tout x ∈ E la valeur xi la plusproche (au sens d’une certaine distance) parmi un ensemble fini Dde N valeurs :
Q(x) : ∀i , si x ∈ xi , x 7→ xi avec xi ∈ xi
48 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Définitions et vocabulaireVocabulaire
Q : quantification scalaire
xi : niveaux de qunatification
xi = {x/Q(x) = xi} : intervalles a de quantification
P = {xi}i=0..N−1 : partition, découpage de l’espace des valeurs enintervalles/zones de quantif.
D = {xi}i=0..N−1 : dictionnaire
a. en pratique, ce sont toujours des segments sur la droite des réels bornés par lesseuils de quantif.
Definition (Résolution d’un quantifieur)
La résolution d’un quantifieur est R = dlog2(N)e, le nombre de bitsnécessaire au codage BCD sans perte des xi
a
a. autrement dit l’optimum si la loi d’apparition des xi est uniforme
49 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Propriétés
Q est une application surjective donc non inversible ; elle introduit deserreurs de représentations du signal mais permet la réduction de laressource binaire (comme recherchée)
Q est une opération non linéaire, donc ses effets ne peuvent êtremodélisés que statistiquement
50 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Bruit/erreur de quantification
Hypothèse : Le signal x est la réalisation d’un processus aléatoire Xde Densité de Probabilité (DDP) pX (estimée au besoin par unhistogramme)
Definition (Erreur de quantification q)
q = x −Q(x) = x − xi où xi = Q(x)
La quantification étant non linéaire, l’erreur de quantification ne peutêtre "‘caractérisée"’ qu’en moyenne.
51 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mesures de distorsions : la distorsionmoyenne
Definition (Distorsion moyenne a)
a. au sens de la DDP de x i.e. la loi de répartition des valeurs prises par x
D =
∫ +∞
−∞d(x ,Q(x)
)pX (x)dx
avec d(., .) une distance mesurant la distorsion locale entre x et Q(x)
Example (Distance)
euclidienne
perceptuelle, ...
52 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
EQM et RSBDefinition (Erreur Quadratique Moyenne (EQM) a)
a. Mean Square Error (MSE) , cas particulier courant de la distorsion moyenne
EQM =
∫ +∞
−∞
(x −Q(x)
)2pX (x)dx =
∫ +∞
−∞q2pX (x)dx i.e. la variance
statistique (puissance) de l’erreur de quantif σ2q
Definition (Rapport Signal-sur-Bruit (RSB) a)
a. Signal-to-Noise Ratio (SNR)
RSBdB = 10 log10
(σ2
Xσ2
q
)dB
Avantages : simplicité, résultats analytiques, sens physique, estimation(en pratique) aisée par moyennage sur M échantillonsInconvénients : n’est pas forcément corrélé avec la perception mais sertde fondement pour des mesures « perceptives » plus élaborées
53 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantification Scalaire Uniforme (QSU)
QSU = QS la plus simple
Très largement employée notamment dans les CANDite uniforme car les représentants sont
équi-répartis sur une échelle linéaireà une distance ∆ (constante), appelée pas de quantification, les uns desautresles centres de N = 2R intervalles de même longueur ∆
Definition (QSU dans la zone de linéarité)
Q(x) =[x − δ
∆
]∆ + δ
avec[]
l’opérateur d’arrondi, ∆ = 2AN et δ un paramètre de décalage
des représentants sur l’axe
54 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Graphe de la QSU (pour N = 8 et R = 3)
Quantifieur
−A
A
0
x0
x1
x2x2
x3
x4
x5
x6
x7∆
x
y = x
Q(x)
Zone de linéarité Saturation
55 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
La Quantification Scalaire (QS) : un exemple
Scalaire→ Traitement échantillon par échantillon à la cadence Fe
Résolution R = nombre de bits/échantillons nécessaire pour coder(réversiblement) en BCD les valeurs quantifiées des échantillons
Débit final RFe (en bits/s)
Comment choisir les paramètres du quantifieur pour minimiser le débittout en minimisant les erreurs ?
56 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Performances
Paramètres
Dynamique du quantifieur A
Pas de quantification : ∆ =2AN
Zones de fonctionnement
2 zones de fonctionnement : linéaire + de saturation/dépassement,engendrant 2 types de bruit
1 zone morte, intervalle associé au représentant 0 permettant de ne pasreprésenter les composantes de faible puissance
Des compromis à faire :L’erreur de quantification est d’autant plus petite que ∆ est petit, mais-dans ce cas- que N (donc R) grand, à moins de diminuer A...
57 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Bruit de dépassement d’une QSU
Definition (Bruit de dépassement)
Erreur/bruit de quantification occasionné par la troncature du signal xlorsque celui-ci tombe dans la zone de dépassement, c’est à direlorsque |x | > A
Augmente linéairement avec x et s’active en fonction de A
Très mal toléré d’un point de vue perceptif ! !
Approximation pour une source X ∼ U([−Xmax ; Xmax ])
σ2q ≈ 2
∫ +∞
Aq2pX (x)dx ≈ (Xmax − A)3
3Xmax
58 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Bruit de dépassement d’une QSU
Paramétrage de A
A doit être dimensionné en fonction de la dynamique de x pour éviterles erreurs (trop importantes) de la zone de saturationEn pratique,
pour une source uniforme X ∼ U([−Xmax ; Xmax ]), A = Xmax
pour tout autre source (gaussienne, laplacienne), réglés via le facteur
d’échelle γ (typiquement entre 2 et 4) avec γ =Aσx
et
σ2X = E [x2] =
∫ +∞
−∞x2pX (x)dx
58 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Bruit de quantification d’une QSU
Hypothèses de calcul : Contexte Haute Résolution (HR)
La source x suit une DDP pX (x) concentrée dans [−A; A] donc le bruitde dépassement puisse être négligé
La résolution R (donc le nombre de niveaux de quantification N)suffisamment élevée pour supposer que pX (x) est suffisamment lisse(≈ constante) dans chaque intervalle avec∫ +∞
−∞pX (x)dx =
N−1∑i=0
pX (xi )∆ = 1
Remarque : permet de dériver des résultats théoriques alors qu’enpratique on ne peut approcher les moments que par des estimationssur un grand nombre de données (ex : moyenne probabiliste avec
∫→ moyenne statistique 1
M
∑M ).
59 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Cas optimal d’une source uniformémentrépartie
X ∼ U([−A; A]) donc sous hypothèse HR, q est uniformément répartientre et dans tous les intervalles xi donc entre −∆
2 et + ∆2
Variance/Puissance du bruit
σ2q =
∫ +∞
−∞q2pX (x)dx =
∫ + ∆2
−∆2
q2 1∆
dq =∆2
12=
A2
32−2R = σ2
x 2−2R
Rapport Signal sur Bruit (RSB) : Règle des 6 dB par bit
RSBdB = 10 log10(σ2
x
σ2q
)= 6,02R
A ↓ ⇔ EQM ↑ mais attention au bruit de dépassement ! En pratique, ilfaut tenir compte de la dynamique de xExemple : données audio sur 16 bits, RSB ≈ 96 dB
60 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Cas le moins favorable d’une sourcegaussienne
X ∼ N (0, σ2x ) avec pX (x) =
1√2πσ2
x
exp(− x2
2σ2X
)Theorem (Formule de Bennett pour une source quelconque)
σ2q =
112
(∫ +∞
−∞(pX (x))1/3dx
)3
2−2R
Variance/Puissance du bruit et Rapport Signal sur Bruit (RSB) :Règle des 6 dB par bit
σ2q =
√3
2σ2
X 2−2R et RSBdB = 6,02R − 4,35
61 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
RSB d’une QSU
Pour toute autre distribution, la puissance de l’erreur est toujourscomprise entre les 2 valeurs précédentes
62 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantification Scalaire Non Uniforme(QSNU)
Hypothèse : X suit une loi non uniforme 5
Objectif : tenir compte de la répartition statistique des valeurs de x pourrendre l’allocation de la ressource binaire plus efficace
Principes similaires au codage entropique : pour diminuer la distorsionD, on alloue plus de précisions (plus de représentants) aux valeurs dusignal les plus fréquentes
Intervalles de quantification de longueur variable (d’autant plus petiteque pX (x) est grande)
Représentants pas forcément au centre des intervalles
5. gaussienne pour de la musique, laplacienne pour de la parole
63 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Un exemple
64 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Schéma équivalent de la QSNU
T = transformation non-linéaire (dépendant de la DDP du signal) +QSU
Example (Standard US en téléphonie fixe (G.711) avec Fe = 8kHz, R = 8 bits, débit de 64 kbits/s)
T (x) = Vln(1 + µ|x |/A)
ln(1 + µ)sgn(x), pour |x | ≤ A
et µ = 255, réglé pour optimiser le RSB par rapport à la dynamiquedes signaux de parole
65 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantificateur optimal pour la QSNU
Definition (Quantificateur optimal)
Le quantifieur défini par1 le dictionnaire D et donc ses représentants {xi}i=0..N−1
2 la partition P = {xi}i=0..N−1
qui minimise EQM =
∫ +∞
−∞
(x −Q(x)
)2pX (x)dx , pour une DDP pX (x)
donnée et une résolution R = dlog2(N)e fixée
66 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Une solution : l’algorithme de Llyod-Max
Principe : Deux conditions nécessaires d’optimalité
en séparantl’encodeur qui est défini par la partition P = {xi}i=0..N−1
le décodeur qui est défini par le dictionnaire D = {xi}i=0..N−1
67 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Une solution : l’algorithme de Llyod-Max
Principe : Deux conditions nécessaires d’optimalité
1 Pour un dictionnaire D = {xi}i=0..N−1 donné, la meilleure partition estdonnée par la condition des plus proches voisins :
∀i = 0..N − 1, xi = {x/∀j = 0..N − 1, (x − xi )2 ≤ (x − xj )
2}
2 Pour une partition P = {xi}i=0..N−1 fixée, le meilleur dictionnaire estdonné par la condition des centroïdes (barycentres au sens depX (x)) :
∀i = 0..N − 1, xi = E [x |x ∈ xi ] =
∫x∈xi
xpX (x)dx∫x∈xi
pX (x)dx
67 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvreEn pratique,
Utilisation d’une large base de données empiriques (taille M >> N pourbien représenter pX (x))
Construction itérative du quantificateur en alternant sur les deuxconditions d’optimalité
Algorithme
1 Partant d’un dictionnaire initial,2 construction d’une partition optimale en réaffectant les données aux
centroïdes suivant les plus proches voisins3 Construction de nouveaux centroïdes par calcul des moyennes des
données de chaque classe4 Calcul de l’EQM (qui diminue) puis itération à l’étape 25 L’algorithme s’arrête lorsque l’EQM n’évolue plus ou que la diminution
relative est inférieure à un seuil faible
68 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1D : InitialisationX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
69 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
70 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
71 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
72 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
73 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
74 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
75 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
76 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
77 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
78 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
79 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
80 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
81 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
82 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
83 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
84 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
85 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
86 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
87 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1D : FinX ∼ U([−10,10]) avec M = 10000, N = 4, R = 2 bits
88 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1D : InitialisationsX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
89 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
90 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
91 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
92 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
93 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
94 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
95 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
96 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
97 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1DX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
98 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Mise en oeuvre en 1D : FinX ∼ N (0, σ2
x ) avec σ2x = 2.5, M = 10000, N = 16, R = 4 bits
99 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Performances
« Mise en forme » du quantificateur selon pX (x) sans estimationexplicite de pX (x), mais seulement à partir d’un large échantillon devaleurs de la source X !
Le quantificateur pas forcément optimal mais performant pour denombreuses applications car l’EQM présente des minimum locaux (cvpas forcément vers le minima global)
Possibilité de le généraliser à d’autres distances d en réecrivant lesconditions d’optimalité
Peut-être rendu adaptatif en fonction des statistiques à moyen terme dex(n)
Conditions d’optimalité pour une distance d quelconque
Plus proches voisins : Ci = {s/d(s, si ) ≤ d(s, sj ), j ∈ [1; N]}Centroïdes : si = arg minx E [d(s, x)/s ∈ Ci ]
100 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Conclusion sur la QS
Diminution de la ressource binaire au prix de pertes, facilementmodélisable
Des précautions doivent être prises dans le réglage du quantifieur,notamment adapté la dynamique du quantifieur à celle du signal (pouréviter le dépassement)
Est optimal lorsque la source à quantifier à une DDP "‘plate"’ (QSU),sinon, des solutions sous-optimales existent
Pour un débit fixé, introduit d’autant moins d’erreurs que la dynamiquedu signal est faible
Pour une dynamique fixée, introduit d’autant moins d’erreurs que laressource binaire est grande
101 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantification Vectorielle (QV)
“Le codage est globalement plus performant s’il opère sur desgroupes d’échantillons” [C. Shannon, 1948]
QV = technique optimaleMise en pratique récente dans de nombreuses applications :
sur vecteurs composés d’échantillons successifs du signalsur des jeux de paramètres modélisant x
102 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantification Vectorielle (QV) (2/2)
Principe du quantifieur identique à QS, en prenant :Des vecteurs x = [x(0), x(1), x(2), ..., x(k − 1)] de taille k au lieu descalaires
Un dictionnaire de N vecteurs xi (de taille k )
Une partition P = {xi}i=0..N−1 de l’espace des vecteurs de dimension k
Une distance vectorielle d(x , xi )
103 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Vocabulaire
Vocabulaire
dim(E) 1 > 1Q quantif. scalaire quantif. vectoriellexi niveaux représentantsxi = {x/Q(x) = xi} intervalles régions
P = {xi}i=0..N−1 : Partition
D = {xi}i=0..N−1 : Dictionnaire
104 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Résolution
Definition (Résolution d’un QV)
La résolution est le nombre de bits utilisés par composante (ici 1
code binaire BCD pour k composante de signal) donc R =log2(N)
k
Remarques :Si les vecteurs sont composés d’échantillons concaténés, R est encorele nombre de bits par échantillon et le débit est toujours
RFe =log2(N)Fe
kEn général, le nombre de représentants N de la QV est supérieur àcelui de la QS (car formes vectorielles plus complexes/nombreuses queformes scalaires)→ Objectif = diminuer R en « dosant » N et k
105 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Bruit de quantification et distorsionDefinition (Bruit de quantification)
q = x −Q(x)
Definition (Distorsion)
D =
∫Rk
d(x ,Q(x))pX (x)dx =N−1∑i=0
∫x∈xi
d(x , xi )pX (x)dx
avec d une distance vectorielle définie à l’aide d’une matrice depondération W par :
d(x ,Q(x)) = (x −Q(x))tW (x −Q(x))
Remarque :Si W = I, distance euclidienne avecd(x ,Q(x)) = (x −Q(x))t (x −Q(x)) = ||x −Q(x)||2
Sinon W souvent choisi pour refléter des critères perceptifs
106 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Illustration de l’optimalité de la QV en 2D
QS dans la direction x et dans la direction y
107 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Vers un dictionnaire optimal pour la QV
L’algorithme de Lloyd généralisé
Sur la base de M vecteurs x (observés), construction itérative duquantifieur (dictionnaire + partition) avec alternance des deuxconditions d’optimalité au sens de la distance d choisie
Plus proches voisins : xi = {x/d(x , xi ) ≤ d(x , xj ),∀j 6= i}Centroïdes : xi = arg min
pE [d(x , p)/x ∈ xi ]
avec arrêt lorsque la distorsion moyenne D =1M
M∑n=1
d(x ,Q(x)
)atteint un minimum
108 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Performances
1 Dictionnaire localement optimal mais pas globalement optimal (toujoursà cause de la présence de minima locaux dans l’EQM) ; en général esttrès bon en pratique
2 Difficulté majeure : initialisation du dictionnaire délicate ; en général,
1 Tirage aléatoire de N éléments de la base de données2 QS sur chaque composante
109 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Approche du codage par prédiction linéaire
La QV n’exploite pas les relations statistiques liant les composantes duvecteur x quantifié
A l’inverse la prédiction linéaire exploite la corrélation entre cescomposantes
110 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Approche du codage par prédiction linéaire
Example (Composantes = pixels d’une image)
Le niveau de gris x d’un pixel donné est fortement lié au niveau de grisde ses voisins
Si voisins ≈ noirs, le pixel a de très forte chance d’être "‘très foncé"’Principe :
1 prédire le niveau de gris x du pixel à partir de ses voisins2 quantifier l’erreur de prédiction e = x − x
Intérêt :1 La dynamique de l’erreur est plus petite que la dynamique du signal donc
elle peut être quantifiée avec moins de bit que le signal tout en induisantune même distorsion
2 Elle peut avoir une DDP plus propice à la quantification (plus plate→ Qoptimal)
110 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Schema de principe
x(n)x(n − 1)x(n − 2)
...x(n − P)
+/- Qe(n)
i
P(z)
x(n)
Q−1 +/-e(n)
y(n)y(n − 1)y(n − 2)
...y(n − P)
P(z)
y(n)
Codeur Décodeur
Suppose que le décodeurconnaît la prédiction y(n) par codage du signal x(n) dans le bitstream
ou est capable de recalculer (sans trop d’erreur) y(n) ≈ x(n)
111 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Prédiction linéaireLa valeur prédite x(n) de x(n) est une combinaison linéaire desvoisins. En général,
Definition (Prédiction linéaire pour un modèle Auto-Regressif)
x(n) =P∑
i=1
aix(n − i)
avec ai les coefficients de la prédiction linéaire, P est l’ordre laprédiction et x(n − i) les valeurs de signal précédents x(n)
Implémentation par un filtre : P(z) =P∑
i=1
aiz−i aisé sur un
composant dédié au TS (microprocesseur)
Definition (Erreur de prédiction)
e(n) = x(n)− x(n) = x(n)−P∑
i=i
aix(n − i)
112 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Calcul des coefficients de la PLObjectif
Trouver les coefficients ai qui minimisent (en moyenne) l’erreur deprédiction, i.e. E [σ2
e] :
{ai} = arg min E
(x(n)−P∑
i=i
aix(n − i)
)2Theorem (Equations de Yule-Walker : Lien entre coefficients deprédiction et fonction d’autocorrélation)
∀n,P∑
i=1
ai rX (n − i) = rX (n)⇔ a = −R−1X rX
où rX est la fonction d’autocorrélation de X, rX = [rX (1) . . . rX (P)]t et
R =
rX (0) · · · rX (P − 1)...
...rX (P − 1) · · · rX (0)
Remarque : Calculer les {ai} c’est faire une analyse LPC 6
6. Linear Prediction Coding
113 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Rappel : Fonction d’autocorrélationRôle : détecter des régularités, des profils répétés dans un signal,comme un signal périodique ou une fréquence fondamentale d’un si-gnal
Definition (Fonction d’autocorrélation)
rX (p) = E [x(n)x(n − p)]
Definition (Estimateur de l’autocorrélation)
Pour N observations du signal x statitonnaire (réel), fonction paireavec
rX (p) ≈ 1N − p + 1
N−1∑n=p
x(n)x(n − p)
114 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Rappel : Fonction d’autocorrélation
Example (Signal = somme de 2 sinusoides + un bruit)
Remarque :En p = 0 la puissance du signal
Un pic à 1/f (et tous ces multiples) pour les sinusoides
114 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Illustration
Deux avantages : réduire la dynamique du signal à quantifier +platifier son spectre⇒ une QSU peut plus facilement être mise enoeuvre avec de bon résultat en RSB pour un faible nombre de bit(gain en ressource binaire)
115 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Codeur prédictif : vers un schéma bouclefermée
x(n)x(n − 1)x(n − 2)
...x(n − P)
+/- Qe(n)
i
P(z)
x(n)
Q−1 +/-e(n)
y(n)y(n − 1)y(n − 2)
...y(n − P)
P(z)
y(n)
Codeur Décodeur
Les coefficients de prédiction sont codés périodiquement et transmis viale bitstream au décodeurLe signal x(n) est reconstruit en y(n) prédit à partir de y(n − 1), ...y(n − P), sans trop d’erreur si le taux de compression est faibleSinon, schéma en boucle fermée avec copie du décodeur à l’émetteurpour inclure avec l’erreur de prédiction un correctif des erreurs dudécodeur
116 / 207
Multimédia : de la compression au tatouage
Définitions Quantification scalaire Quantification vectorielle Prédiction linéaire Conclusion
Quantification
Résumé
Eliminer une partie de l’information par arrondi ou suppression desdépendances dans les relations entre composantes du signal source
Un compromis entre précision de l’information quantifiée et erreur dequantification (induisant des distorsions)
Quantification d’autant plus performante (en terme d’optimisation du fluxbinaire) si la source est de ddp uniforme
Précaution à prendre dans le choix des paramètres du quantifieur pouradapter la dynamique du quantifieur à la dynamique de la source
117 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Quatrième partie IV
Compression de la parole : lescodec paramétriques
15 Caractéristiques de la paroleModèle source-filtre
16 Rappels17 LPC10
Schéma de principeAnalyse du codec LPC10Conclusion
18 CELP : l’approche QV19 Conclusions sur la compression de parole
118 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Rappels : Compression & Outil
Objectif de la compression :1 Trouver une représentation des signaux efficace pour diminuer la ressource
binaire : codage efficace/suppression de redondance2 Un gain en débit peut se faire par perte d’information à la condition que la
qualité d’écoute du signal reconstruit ne soit pas “trop dégradé”
Deux outils :1 Codage (sans perte) d’autant plus proche de l’optimal entropique que la
ddp de signaux codés est uniforme2 Quantification (avec pertes) d’autant plus efficace que les paramètres du
quantifieur sont adaptés à la dynamique des signaux
119 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Ordres et qualité de grandeurs en parole
Signal numérisé par CAN avec filtre passe-bas pour limiter la bande defréquence et éviter les phénomènes de repliement spectral
Qualité ∆B (kHz) Fe (kHz) b/e Débit nc→ cBande téléphonique 0.3-3.3 8 13 bits 104→ 6 kbit/s
Bande élargie 0.05-7 16 14 bits 224→ 24 kbit/s
Qualité du signal reconstruit :Tests objectifs de qualité : PESQ 7 utilisés pendant la phase d’élaborationTests d’intelligibilité (Absolute Category Rating, Degradation CategoryRating, etc...)
7. Perceptual evaluation of Speech Quality/Audio Quality / Rec. UIT-R P.862, BS.562
120 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Caractéristiques des signaux de parole
Caractéristiques
Signal à forte variabilitétemporelle car contenantplusieurs informations : lecontenu linguistique (phonème,langue), le locuteur oul’environnement sonore
mais pseudo-stationnaire a surdes fenêtres de 10 à 30 ms
a. de caractéristiques statistiques indépendantes du temps
Definition (Types (principaux) de sons de parole)
voisés avec vibrations des cordes vocales (voyelles, [m], [b], [n])
non-voisés ([ch], [s], [f]) (incluant plosifs, fricatives, ...)
121 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Modèle source-filtre du signal de parole
Mécanisme de production de la parole
Les sons sont produits par une source (excitation venant des cordesvocales) qui passe à travers et est mis en forme par le conduit vocal(pulsation de la glotte, cavité buccale et nasale + lèvres)
→ Modèle de synthèse permettant de reconstruire la parole
122 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Modèle source-filtre du signal de parole
Definition (Modèle source-filtre)
1 Sourcessons voisés = vibration des cordes vocales à une fréquence fondamentaleF0 ⇒ excitation par train d’impulsions de fréquence F0 (appelée pitch a )sons non-voisés = passage forcé de l’air⇒ excitation par bruit blanc
2 Mise en forme du conduit vocal = opération de filtrage linéaire avecgain G de “réglage du volume”
a. dont la valeur moyenne est caractéristique du sexe et du locuteur
Remarques :Signal particulièrement adapté pour l’usage de la PL : réduction de débiten codant le filtre-conduit vocal (obtenu par PL) et les sources
Modèle adapté aux voisés, non-voisés mais ayant ses limites :n’explique pas les parties plosives du signal ni d’autres modes deproduction (sifflement)
122 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Filtre numérique
Definition (Filtre numérique H)
Système numérique, d’entrée x(n) et de sortie y(n), modifiant lecontenu spectral de x en amplifiant, atténuant ou éliminant certainescomposantes spectrales
Un filtre est (souvent) défini par une équation aux différences 8 :
y(n) =M∑
j=0
bjx(n − j)
︸ ︷︷ ︸partie MA 9
−P∑
i=1
aiy(n − i)︸ ︷︷ ︸partie AR 10
aisément implémentable dans des composants électroniques dédiés(avec additionneur, multiplieur et registre à décalage)
8. combinaison linéaire9. Moyenne Ajustée
10. AutoRégressive
123 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Tranformée en Z
Definition (Transformée en Z)
Transformée inversible, adéquate pour la caractérisation des filtres
numériques et définie par a TZ [x ](z) =+∞∑
n=−∞x(n)z−n pour la variable
complexe z
a. série entière
Un filtre est entièrement caractérisé par :
1 sa fonction de transfert H(z) =TZ [y ](z)
TZ [x ](z)=
M∑j=0
bjz−j
1 +P∑
i=1
aiz−i
2 sa réponse impulsionnelle h(n) = TZ−1[H](n)
124 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Filtrage
Definition (Relation de filtrage)
1 Outre l’équation aux différences, filtrer x par H revient à :un produit de convolution dans le domaine temporel :
y(n) = h(n) ? x(n) =+∞∑
i=−∞h(i)x(n − i)
un produit dans le domaine en Z : TZ [y ](z) = H(z).TZ [x ](z)
2 Inverser le filtrage de x par H revient à :
un quotient dans le domaine en Z : TZ [x ](z) =1
H(z).TZ [y ](z) donc à
filtrer y par le filtre de fonction de transfert1
H(z)
125 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Transformée de Fourier et Densité Spectralede Puissance
Pour une fenêtre de signal x de N échantillons,
Transformée de Fourier Discrète (TFD, FFT) : transformée inversible,permettant la conversion temps/fréquence du signal x :
∀k = 0..N−1,TFD[x ](k) = X (k) =N−1∑n=0
x(n) exp(−j2π
kN
n)
avec f =kN
Fe
Densité spectrale de puissance (DSP), puissance des composantesfréquentielles sonores :
∀k = 0..N − 1,Sx (k) =|X (k)|2
N
symétrique (pour un signal réel tel que la musique) par rapport à N/2
126 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
De la TZ à la DSP
Definition (Lien entre la TZ et la Transformée en Fourier)
TF [h](f ) = H(z)|z=e2πjf/Fe = |H(f )|ejφ(f )
Example (Un filtrepasse-bas)
H(z) =1
1− 0.5z−1
Remarque : si x(n) bruitblanc, y(n) = h(n) ? x(n)de DSP égale à |H(f )|2
127 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Introduction
Codec de parole LPC10
Codec obsolète fonctionnant à 2.4 kbit/s
Application "directe" du modèle source-filtre avec analyse LPC
Objectif du LPC10
L’oreille étant (en 1ère approche) peu sensible à la phase, codecfocalisé sur la DSP des signaux avec pour but que Sy (f ) ≈ Sx (f )
Traitement temporel
Signal traité par trames de N = 240 échantillons avec recouvrementde 2/3
128 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Principe du décodeur/synthèse
Générateurd’impulsions
Générateur aléatoire
x
Gain g
1A(z)
Coefficients LPC ai
Audio reconstruity(n)
Pitch F0
SourceConduit vocal
Décodeur : basé directement sur le modèle source-filtre
Encodeur : analyse du signal pour déterminer, quantifier puis coder lesparamètres de synthèse adéquates en minimisant le débit et enassurant la qualité par Sy ≈ Sx
129 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Modélisation du conduit vocalHypothèse du modèle source-filtre
Le conduit vocal réalise une mise en forme de l’excitation y(n) pourproduire le signal de parole x(n)→ filtre !
Le signal de parole (en 1ère approximation) suit un modèleAutoRégressif
Le conduit vocal peut donc être modélisé par1
A(z)=
1
1 +P∑
i=1
aiz−i
avec P ≈ 8− 15
L’analyse LPC du signal x est donc particulièrement adaptée au calculdes coefficients ai (cf algorithme de Durbin-Levison)
Remarque : Inverser les effets du conduit vocal revient à filtrer par
A(z) = 1 +P∑
i=1
aiz−i
130 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Illustration : ’sss.wav’ (P=10)
i ai0 1.01 0.35942 0.78903 -0.18984 -0.26295 -0.92146 -0.30167 -0.43788 0.06649 -0.0328
10 0.0564
Pondération du signal par une fenêtre de Hamming avec analyse LPCpour atténuation des artéfacts fréquentiels
1A(z)
de réponse en fréquence l’enveloppe spectrale du signal→
modélisation de la répartition globale du signal en fréquence
sss.wav
131 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Analyse d’un signal non voisé
Hypothèse du modèle source-filtre
Son non-voisé x(n) ≡ excitation du filtre/conduit vocal par un bruitblanc
A la synthèse A l’analyseExcitation y(n) ∼ N (0, σ2
y ) L’audio original x(n) vient d’unede DSP Sy (f ) = σ2
y excitation x(n) ∼ N (0, σ2x )
L’audio y(n) est reconstruit L’excitation x(n) est calculé
par filtrage de y(n) par1
A(z)en filtrant de x(n) par A(z)
donc Sy (f ) =σ2
y
|A(f )2|soit Sx (f ) = σ2
x = |A(f )|2SX (f )
où |A(f )|2 est la réponse en fréquence du filtre A(z)
132 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Illustration : ’sss.wav’ non-voisé (P=10)
x de DSP non plate donc corrélé tandis que x de DSP applati doncdécorrélé, proche d’un bruit blanc
133 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Synthèse d’un signal non voisé
Au décodeur, pour reconstruire y(n), il faut transmettre (idéalement)dans le bitstream :
1 Les coefficients du filtre, vecteur de P coefficients, codés2 L’excitation x(n)→ y(n), vecteur-signal de N valeurs, codée
Mais si l’objectif est d’avoir Sy (f ) ≈ Sx (f ), on peut ne transmettre quela puissance de l’excitation σ2
x → σ2y , permettant un gain de débit non
négligeable (1 seule valeur)
Principe du vocodeur
L’audio y est reconstruit en appliquant en entrée du filtre de synthèse1
A(z)n’importe quelle réalisation d’un bruit blanc y(n) à condition
que σ2x = σ2
y ; x aura la même DSP que x (objectif LPC10 atteint)mais une forme d’onde différente
134 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Exemple sonore (P=15, N=160)
A l’analyse A la synthèseaudio, excitation, puissance audio reconstruit, excitation
greg1.wav, greg1_vocodeur.wav
135 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Inefficacité pour un son voisé (P=10)
Résidu de périodicité : ici7 périodes en N = 512échantillons donc defréquence fondamentale≈ 7/NFe = 150 Hz (voixd’homme)→ justifiel’utilisation d’un autremodèle d’excitation pourles sons voisés
a.wav
136 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Analyse d’un signal voisé
Hypothèse du modèle source-filtre
Son voisé x(n) ≡ excitation du filtre/conduit vocal par un traind’impulsion périodique de fréquence fondamentale F0
Excitation à l’analyse et à la synthèse
x(n)y(n)
}= α
+∞∑m=−∞
δ(n−mT0+φ) de DSP Sx (f ) = α2∞∑
m=−∞δ(f−mF0)
avec (seulement) 4 paramètres à transmettre dans le bistream :δ le symbole de Kronecker i.e. δ(n) = 1 si n = 0, = 0 sinon,
T0 = 1/F0,
φ une incertitude sur la phase,
α un gain contrôlant la puissance du peigne
137 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Exemple sonore : synthèse avec F0 fixe
audio, excitation, puissance audio reconstruit, excitation
Signal synthétique ne reproduisant pas les variations dans la hauteurde la voix
greg1.wav, greg1_voise1.wav
138 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Exemple sonore : synthèse avec F0
adaptative
audio, excitation, fréquence F0 audio reconstruit, excitation
F0 adaptative sur chaque trame (problème complexe) résolu ici avec le1er pic d’autocorrélation (périodicité principale de l’excitation)→ modèlenon adapté aux parties non-voisées
greg1_voise2.wav139 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Avec détecteur voisé/non-voisé
audio, excitation, fréquence F0 audio reconstruit, excitation
Alternance du modèle d’excitation (bruit, train d’impulsions) en fonctiondu type de son synthétisé avec détecteur de voisement (basé sur ladécroissance ± ’rapide’ de l’autocorrélation)
greg1_LPC10.wav
140 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Performance
Contenu du bitstream et Débit : pour 50 fenêtres par seconde
10 coefficients LPC quantifiés avec 3/4 bits→ 1.8 kbits/s
σ2x ou α quantifié avec 6 bits par frame→ 300 bits/s
distinction non voisé/voisé avec 1 bit par frame→ 50 bits/s
Période fondamentale 50 ∗ log2(T max0 − T min
0 ) ≈ 350 bits/s
Qualitéacceptable mais peut-être améliorée
1 en considérant un modèle de parole plus réaliste2 en cherchant non plus à restituer la DSP mais le signal lui-même au
plus proche de l’original
141 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Introduction
Definition (Code Excited LP (CELP) )
Débit de 4.8 à 16 kbits/s
Codec basé sur une modélisation AR du signal de parole (exploitant uneLPC pour modéliser le conduit vocal par un filtre) avec un modèled’excitation intégrant K (≈ 2-3) composantes :
y(n) =K∑
k=1
gkδ(n − nk )
où gk gain et nk déphasage de chaque composante
les composantes sont choisies de manière optimal pour minimiserl’EQM (perceptuel) de reconstruction ||x(n)− y(n)||2
En pratique,copie locale du décodeur à l’encodeur pour la recherche optimale del’excitation (modélisation par la synthèse)utilisation d’un dictionnaire de forme δ(n − nk )→ problème de QV
142 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Schéma de principe
143 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Exemple sonore (sans quantification)
greg1.wav, greg1_CELP.wav
144 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Cas du codeur CELP UIT-T G.729 à 8 kbit/s
Coefficients du filtre de synthèse 1/A(z) d’ordre P = 10Actualisation toutes les 10 ms (fenêtre d’analyse de 80 échantillons)Codage des “Line Spectrum Pairs” sur 18 bits
Entrée du filtre de synthèse e(n) = e1(n) + e2(n)
Actualisation toutes les 5 msPredicteur à long terme : e1(n) = g1e(n − λ) avec g1 codé sur 3 bits, λcodé sur 7 bits caractérisant la période fondamentale (“pitch”)e2(n) = g2sk (n) où sk (n) ∈ [s0, ..., sL−1] = dictionnaire de QV, avec g2codé sur 4 bits, k codé sur 17 bits
Toutes les 10 ms : 18 + 2 ∗ (3 + 7 + 4 + 17) = 80⇒ 8 kbit/s
145 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la parole Rappels : Filtrage, Transformée en Z, Transformée de Fourier, et Densité Spectrale de Puissance LPC10 CELP : l’approche QV Conclusions sur la compression de parole
Technologies actuelles et futures
Technologies complémentaires : Voice Activity Detector (VAD), ConfortNoise Generation (CNG)Débit variable adapté au réseau (diminution du débit débit diminuelorsque l’encombrement du réseau augmente) : AMR (Adaptive MultipleRate) = GSM 06.90 (ETSI 1999)
Plusieurs codeurs à 6= débits + switch automatique à la volée en fonctiondu réseauAdaptation conjointe du codage canal
Débit variable adapté au signal de parole (changement de débit enfonction de la nature du signal à encoder : sons voisés, transitions,silence)
Encore beaucoup de R&D sur ce thème (idem en codage audio)Exemple : VMR (Variable rate Multimode) WidebandNotion de débit moyen / Nécessité de buffers
146 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Cinquième partie V
Compression audio : l’exempledu MPEG
20 Caractéristiques de la musiqueLa musique
21 Psychoacoustique
22 MPEG-1Principes de l’encodeurFlux MPEGCodage de la stéréoBilan
23 Conclusion
147 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Ordres de grandeurs en audioSignal numérisé par CAN avec filtre passe-bas pour limiter la bande defréquence et éviter les phénomènes de repliement spectralBande "Hi-Fi"
Qualité ∆B (kHz) Fe (kHz) b/e Débit nc→ c“FM” 0.02-15 32 16 bits 512→ 64 kbit/s (mono)“CD” 0.02-20 44.1 16 bits 705→ 64 kbit/s (mono)
1.4 Mbit/s→ 96 kbit/s (stéréo)“Studio” 0.02-22 48 16 bits 768→ 64 kbit/s
3.84 Mbit/s→ 384 kbit/s (5.1)“parfaite” 0.02-40 96 24 bits 13.8→? Mbit/s (5.1)
Différentes approches en fonction du taux de compressionTaux de compression “standards” (≈ 64 kbit/s) visant la “transparence”pour les baladeurs MP3, DVD, TNT⇒ Elimination des composantesinaudibles avec codeurs “perceptuels”Taux de compression élevés (≈ 24 kbit/s), proposant une qualité“intermédiaire” pour le streaming, téléphones mobilesTaux de compression faibles (≈ 300 kbit/s) pour l’archivage, les studios deproduction⇒ Codage sans perte ou presque sans perte (type FLAC)
148 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Évaluation de la qualité sonore
1 Test subjectif (écoute) formel (protocole expérimental)Codeurs audio pour des débits compris entre 20 et 64 kbits/s : qualité“intermerdiaire”⇒ méthode MUSHRA 11
Codeurs audio de très bonne qualité : “Transparence”⇒ Méthode du“doublement aveugle à triple stimuli et référence dissumulée” 12
Enregistrements courts (entre 5 et 10 secondes) répétés 3 fois2 possibilités ABA/AAB (A = original, B = codé/reconstruit)Réponse réclamée : 1) B en 2ème ou en 3ème position ? 2) Opinion sur B (5niveaux)Traitement statistique⇒ comparaison “objective” entre codeurs
2 Tests objectifs : PEAQ 13
utilisé pendant la phase d’élaboration du codec
11. MUltiple Stimuli with Hidden Reference and Anchor / Rec. UIT-R BS.1534-112. Rec. UIT-R BS.111613. Perceptual evaluation of Audio Quality / Rec. UIT-R P.862, BS.562
149 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Caractéristiques des signaux de musique
Caractéristiques
Signalpseudo-stationnaire surdes fenêtres de 20 ms
Dynamique importante(90 dB)
Partiels a éventuellementreliées harmoniquement
a. Composantes spectrales prédominantes
Pas de modèles de production simples hormis à considérer chaqueinstrument isolément mais des modèles psychoacoustiques pourdéterminer les composantes non-audibles du signal
150 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Aspects psycho-acoustiques
Objectifs
Déterminer l’information sonore non-pertinente pour la perception, ouintroduisant de faibles distorsions perceptuelles
Résultats d’études psycho-acoustiques/physiologiques
caractérisant les 3 imperfections (majeures) de l’oreille :1 Faible sensibilité à la modification de phase au delà de 2kHz2 Seuil d’audition absolu : courbe de puissance minimum (en DSP) en
fonction de la fréquence (bande 0-20 kHz) d’un son pour être entenduen environnement ’calme’
3 Masquage d’un son par un autremasquage fréquentiel : deux sons simultanésmasquage temporel : deux sons consécutifs a
a. moins exploité, mais on verra quelques facteurs temporels à prendre en compte
151 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Masquage fréquentiel
Origine
l’analyse en fréquence faite parla conversion mécanique→fréquentielle a des vibrations dela membrane basilaire
a. Frequency-to-place transformation
Principe
Un son fort de puissance P1 etde fréquence f1 peut rendreinaudible les sons plus faiblesqui se situent dans une zonede fréquences ∆f (f1) prochesde f1 et de puissance inférieureà un seuil S(P1, f1).
152 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Courbe de masquage élémentaire
Cadre théorique : sonsmasquant ou masquésélémentaires = sinusoïdes oubruits à bande étroite
En l’absence de sonmasquant, seuil d’auditionabsolu Pa(f )
En présence de sons masquants, courbes de masquages S(P1, f1)triangulaires 14 (dans le domaine DSP) centrées sur ∆f (f1) et baséessur 3 paramètres : pente droite, gauche et atténuation de puissance
Zone des fréquences masquées ∆f (f1), de largeur croissante avec f1,plus large pour f > f1 que pour f < f1
14. de même forme pour les 4 cas élémentaires mais avec une paramétrisation diffé-rente
153 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Phénomène de bandes critiquesPhénomène mis en évidence avec des mélanges de sonsélémentaires conduisant
au découpage des fréquences audibles en bandes de fréquence ditcritiques
à une échelle de fréquence auditive : l’échelle des Bark (échellelogarithmique)
Les contributions en puissance des sons élémentaires présents sontintégrées ≈ sommées) seulement dans une certaine largeur de bande =bande critique
Example
N sinusoïdes de puissance P séparées de ∆f autour de f sont toutesaudibles tant que NP ≥ Pa(f ) et N∆f ≤ BC. Au-delà de BC, lessinusoïdes supplémentaires n’influencent plus le son perçu. a
a. Idem pour les sons type bruit à bande étroite
154 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Bandes & Fréquences critiques
Découpage de l’échelle des fréquences en 25 BC suivant un découpagelogarithmique, chaque BC étant 1 BarkCompatibilité des BC avec le principe de masquage fréquentiel : lacourbe de masquage élémentaire couvre (s’applique sur) une BC
155 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Courbe de masquage globale
HypothèseLes contributions de toutes les composantes du son dans lephénomène de masquage s’additionnent
156 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Courbe de masquage globale
Principe du calcul d’une courbe de masquage globale SM(f ) surun bloc de signal (stationnaire)
Approche empirique→ différents modèles (normalisés) basés sur unmême principe :
1 estimation de la DSP (par exemple par FFT)2 classification des composantes fréquentielles en sons purs / bruit selon
un critère d’isolement et de puissance relative3 sommation des composantes les plus proches pour chaque type de son
(pur / bruit) dans chaque bande critique4 suppression des composantes inférieures au seuil d’audition absolu
Sa(f )
5 pour les autres, 1) calcul des seuils de masquage individuels, 2) additiondes contributions individuelles, 3) écrêtage au seuil absolu (Sa(f ))
156 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Un exemple de piano
157 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Codeur perceptif : l’exemple de MPEG-1
Standard de 1992, inclut le MP3 = MPEG 1 Audio Layer 3, développé audébut des années 90 par Fraunhofer
Débit fixe ou variable (réglable)
Fréquence d’échantillonnage : 32, 44.1, 48 kHz
Modes mono / (forced) stereo / joint stereo
Gamme de débit prédéfinis + libres, de 8 à 320 kbps par canalLayer 1→ Layer 2→ Layer 3
Performances croissantes (par exemple pour Layer 1, on recommande undébit > 128 kbps, pour Layer 2 ≈ 128kbps et pour Layer 3 < 128 kbps)Complexité croissante
158 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Schéma général de MPEG-1
159 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Temps-fréquences : illustration des bancsde filtres
Transformation non inversible, mais ayant une très faible erreur dereconstruction & décorrélant les coefficients
Sous-échantillonnage critique dans chaque sous-bande d’un facteur 32pour réduction du nombre de coefficients à coder
Travail en sous-bande : notamment, les coefficients étant quantifiés,choix d’un facteur d’échelle par sous-bande Ak et quantification descoefficients normalisés
160 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Modèle psychoaccoustique de MPEG1
Application d’un modèle heuristique sur chaque fenêtre de signal x(n)pour obtention d’un masque SM (f )
Rappel : l’erreur de représentation (quantification) sur une fenêtre estinaudible si Se(f ) < SM (f )
Permet de calculer le Rapport Signal à Masque (RSM) pour chaquesous-bande, transmis à la procédure d’allocation de bits
Ce RSM ≡ au RSB minimum tolérable par l’oreille après quantification
161 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Allocation de bits
Balayage des bandes de fréquences à quantifier en commençant parcelle les plus sensibles au erreur de quantification (donc de RSB le pluséloigné du RSM)
Allocation de bits (dans la limite du budget binaire disponible) induisantune dimension du RSB suivant la règle des 6 dB/bits
Une sous-bande ne reçoit plus de bit dès que RSB<RSM ou dès que lebudget binaire est épuisé (la contrainte RSB<RSM n’étant pasnécessairement garanti)
Au final, la DSP erreur de quantification est mise en forme suivant lemodèle psychoacoustique
162 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Exemple d’allocation binaire
163 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Quantification
1 Layer 1 : Quantification des coefficients par paquets de 12 échantillons tem-porels (sous-échantillonés)
Allocation de bits entre les différentes bandes basée sur la comparaison entrebruit de quantification et seuil de masquage
Un quantificateur uniforme pour chaque bande + un facteur d’échelle (pouroptimiser la résolution)
2 Layer 2 : Les coefficients issus de 3 paquets de 12 échantillons temporelssont traités conjointement pour chaque bande :
Une seule allocation de bits pour les 3 paquets
1 à 3 facteurs d’échelle selon besoin↔ regroupement de plusieurs valeurs enune seule valeur si de valeurs suffisamment proches ou si la différence estmasquée par un phénomène de masquage temporel
Codage binaire plus efficace des facteurs d’échelle et des valeurs quantifiées
164 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Quantification
3 Layer 3 :Couche MDCT supplémentaire
Quantification non-uniforme pour chaque canalUtilisation d’un “bit reservoir” adapté au débit variable du codage
Le nombre de bit peut varier d’un bloc à l’autreLa taille des blocks varieBit reservoir = buffer (en pratique, l’espace du bitstream correspondant à une tramepeut être occupé par les bits du codage d’une autre trame)
Codage de Huffman pour les facteurs d’échelle et les valeurs quantifiées
Procédure d’allocation de bits plus raffinée et plus complexe que pour Layer 1 et2
4 Dans tous les cas :Les quantificateurs sont normalisés pour chaque sous-bande et sontéventuellement assez différents des QSU typiques (par exemple, le nombre deniveaux n’est pas forcément une puissance de 2)→ un série de tables de valeursen mémoire
164 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Informations transmises du codeur MPEG-1Layer-1
Dans chaque fenêtre d’analyse (32 * 12 = 384 echantillons⇒ 9 mslorsque Fe = 44.1 kHz)
Allocation de bits b0 ... bM−1 explicitement transmise (88 bits)Chaque facteur d’echelle Ak codé sur 6 bits si bk > 0 (ex : 120 bits si 20sous-bandes transmises)Bits restants : mots de code associés à chaque composante normalisée
Bits restants :96 kbit/s : 96000*384/44100 - 88 - 120 = 628 bits64 kbit/s : 350 bits, etc.
⇒ impossible de diminuer davantage le débit sans trop de dégradationssonores d’où la mise en oeuvre de codec plus performant (autrestransformations temps/fréquences, autres modèles psychoacoustiques,etc...)
165 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Structure du flux binaire
166 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Structure du flux binaire
166 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Codage de la stéréo
Redondance particulière entre les deux voiesUn mode de codage possible : le Middle/Side (MS) :
On code M = L + R avec technique standardOn code S = L− R avec technique particulière (et débit moindre)On reconstruit Lq = (Mq + Sq)/2 et Rq = (Mq − Sq)/2
167 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
MP3 récapitulatif
168 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Technologies actuelles et futures
“Scalability” : codage hiérarchique progressifEsprit de la norme MPEG-4Les bitstreams sont décomposables en sous-bitstreams de correspondantà un débit et qualité inférieursLa transmission et reconstruction du signal sont adaptés au canal / auxdésirs de l’utilisateurCodage hiérarchique : la différence entre le signal original et le signalencodé par un premier codeur (core coder) est codée par un secondcodeur (enhancement coder)En pratique : 3 ou 4 couchesExemple : “CELP comme core coder + MPEG4-AAC comme enhancementcoder”→ codage de parole de bonne qualité à bas débit
169 / 207
Multimédia : de la compression au tatouage
Caractéristiques de la musique Psychoacoustique MPEG-1 Conclusion
Technologies actuelles et futures
Adaptation aux réseaux et notamment aux transmissions mobilesRobustesse aux erreurs de transmission (aspect progressif desdégradations de qualité en fonction de l’augmentation des erreurs)Lien avec Scalable CodingFaible consommation des systèmes mobiles “faible” complexité des codecs
Convergence codeurs parole/musique, multi-canaux
Facilité d’accès dans les bases de données (MPEG7)
Besoin de sécurité réclamé par les majors (MPEG21)
En résuméEncore de la recherche, beaucoup de développement !
169 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Sixième partie VI
Tatouage de donnéesmultimédia : applications aux
signaux audio numériques24 Introduction25 Preuve de propriété
ApplicationSchéma de principeDétecteurParamétrisation du système
26 Traçabilité de contenusApplication et contraintesSchéma de principeParamétrisationDécodeurVers un schéma informé
27 Canal cachéApplicationLSBSS haute capacitéLe Scalar Costa SchemeQIM/STDM
28 Conclusion
170 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Introduction
Definition (Tatouage, ou plus généralement, le data-hiding a)
a. Transmission de données cachées
Art de cacher de l’information (signature numérique, texte, média)dans un contenu multimédia, en prenant avantage du contenu(information adjacente)
Contenu multimédiaAudio, image, vidéo, texte, modèle 3D, ...
Problématique
Un problème de communications numériques (transmission d’uneinformation cachée dans un signal d’un émetteur vers un récepteur)avec plusieurs scénarios applicatifs
171 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Limites de la cryptographie
Cryptographie
« Art » des codes secrets, permettantune écriture indéchiffrable (via une clésecrète) et sécurisant la transmissiond’un contenu
Tatouage
« Insertion » de données secrêtes,indissociable du contenu a, marquant lecontenu tout au long de son existence
Procédé numérique plutôt quepsycho-physiologique, donc non"‘subliminal"’
a. quel que soit son format
172 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Limites de la cryptographie
Tatouage vs. cryptographie = Deux techniques complémentaires
interviennant en différents points de la chaîne de transmission maispartageant un même besoin de secret
172 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Exemples historiques
Example (Herodotus, Histories (440 av. JC) : complot en Perse)
Histiaeus propose secrètement à Aristagoras de se rebeller contreDarius I, en envoyant un esclave-emissaire dont le crâne est tatouéavec : "cet esclave m’appartient"
Example (Bach et "‘L’art de la fugue"’)
Tonalité si/la/do/sol (notation française) et b/a/c/h (notationanglaise/allemande)
Example (Filigrane des billets de banque)
173 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Le tatouage, protection des droitsd’utilisation
Tatouage-DRM a avec un drapeau d’usage (lecture, copie, ...)
a. Digital Right Management
Licence-DRM avec schéma à clés asymétriques détectée (voiredécodée) pour légiférer l’usage du contenu ; application d’origine, trèspeu considérée maintenant
174 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Le tatouage, preuve de propriété(intellectuelle, commerciale)
Information cachée = Signature numérique secrète→ Débit d’insertionfaibleRécepteur = Détecteur = "la signature est-elle présente ?"→ Zero-bitwatermarkingUn scénario à 3 participants : le propriétaire (émetteur), le pirate oul’attaquant (canal), le détecteur
175 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Contraintes & critères de performancesPreuve de propriété
Contenu caché MarqueDébit ↓↓
Imperceptibilité ↑↑Robustesse ↑↑
Coût ≈Récepteur détecteur
Performance Pe /Pfa
Imperceptibilité liée à la forced’incrustationMesure de la distorsion perçue
subjective : l’utilisateur
objective : RTS a, PSNR b,PEAQ c
a. ou WCR (Watermark-to-Content power Ratio)b. Peak Signal to Noise power Ratioc. Perceptual Evaluation of Audio Quality
Notes Qualificatif5 Imperceptible4 Perceptible mais non gênante3 Légèrement gênante2 Gênante1 Très gênante
TABLE: Evaluation de la qualité
176 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Contraintes & critères de performancesPreuve de propriété
Contenu caché MarqueDébit ↓↓
Imperceptibilité ↑↑Robustesse ↑↑
Coût ≈Récepteur détecteur
Performance Pe /Pfa
Quantité de données émisesDébit de transmission effectif vs Capacité (Shannon)
Récepteur = détecteur de marque
Probabilité d’erreur Pe (faux négatif) vs. Probabilité de fausse alarmePfa (faux positif), très souvent en l’absence du signal d’origine(récepteur aveugle)
176 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Contraintes & critères de performancesPreuve de propriété
Contenu caché MarqueDébit ↓↓
Imperceptibilité ↑↑Robustesse ↑↑
Coût ≈Récepteur détecteur
Performance Pe /Pfa
Robustesse
But du pirate = modifier lecontenu pour rendre la signatureillisible, voire la remplacer par lasienne, dans les limites de renduacceptable
Robustesse = capacité dudétecteur à résister auxperturbations licites (TS) etillicites (pirate)
1 Modifications de format (compression), dedynamique, d’échelles des temps (time-stretching), filtrage
2 Modifications d’ambiance, effet sonore3 Conversion analogique/numérique4 Cropping, collusion
TABLE: Extraits du Stirmark
176 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage comme chaîne de communication
Canal
OUI?
NON?
Insertion
Signal
tatoué
Corrélation
Attaques
Perturbation
SignalTatouage t
Signal hote x
α
y y
tatoué dégradé
p
Identi�ant m
Ve teur se ret d Ve teur se ret d
Emetteur Canal Ré epteur
A l’émetteur
Un vecteur-identifiant d de Ns composantes, amplifié par un gain α pourassurer l’inaudibilitéInsertion :
But : pousser le signal tatoué y dans la région de détection de dIci ajout du tatouage t = αd aux composantes audio x
177 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Vecteur de composantes
Definition (Domaine d’insertion)
Domaine des composantes extraites choisi en lien avec les défautsperceptifs et leur correspondance avec des modèles statistiques
Example (Domaines d’insertion courant)
Echantillons temporels*
Transformation temps/fréquence : DCT en images, FFT en audio,ondelettes (coefficients ∼ Gaussienne généralisées), ...
Caractéristiques masquées avec modèle perceptif
178 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Force d’incrustation α
Puissance de l’identifiant d
Souvent de puissance σ2d = 1 pour déléguer le contrôle de
l’imperceptibilité à la force d’inscrustation α = σ2t
Definition (Rapport Tatouage-Signal (RTS))
RTS = 10 log10
(||t||2
||x||2
)= 10 log10
(α2
σ2x
)dB
179 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Attaque
Dans le canalAttaque de pirate ≡ ajout d’un vecteur-bruit p venant perturber ladétection du tatouage
Definition (Rapport Tatouage-Bruit (RTB) a)
a. Watermark-to-Noise Ration (WNR)
RTB = 10 log10
(||t||2
||p||2
)= 10 log10
(α2
σ2p
)dB
Remarque : d’une puissance de même ordre de grandeur que celledu tatouage
180 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Théorie de la détection
Objectif
Distinguer un signal contenant l’identifiant d d’un signal ne lecontenant pas :
Test d’hypothèse :{H1 : signal tatoué y = x + p + αdH0 : signal non tatoué y = x + p
Remarques :interprétation géométrique
p peut inclure une autre signature
Détecteur = CorrélateurProjection du vecteur analysé sur le sous-espace vectoriel engendré
par d : c =〈y,d〉
Ns=〈x + p,d〉
Ns+
{α sous H10 sous H0
181 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances
Critères
1 Pe = Prob(H0|H1) : Probabilité d’erreur (faux négatif), i.e. de déciderque le signal y n’est pas marqué par d alors qu’il l’est
2 Pfa = Prob(H1|H0) : Probabilité de fausse alarme (faux positif), i.e. dedécider que le signal y est marqué par d alors qu’il ne l’est pas
Hypothèses de calcul
1 Vecteur audio x = Ns réalisations d’un bruit blanc ∼ N (0, σ2x )
2 Vecteur d’attaque p = Ns réalisations d’un bruit blanc ∼ N (0, σ2p)
tous décorrélés de d (i.e. E [x(n)d(n)] = 0 et E [p(n)d(n)] = 0), avecσ2
d = 1 puisque la puissance du tatouage est déléguée à α
182 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances
Statistiques de la corrélation
c =〈x + p,d〉
Ns+
{α0 = N
(0,σ2
x + σ2p
Ns
)+
{α sous H10 sous H0
Choix d’un seuil dedécision τ
Pe = Prob(c < τ |H1) =∫ τ
−∞N
Pfa = Prob(c ≥ τ |H0) =∫ +∞
τ
N
FIGURE: Paramétrisation : ασx
= 0 dB,σ2
x + σ2p = 1, Ns = 10
182 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances
Performances a→ Courbes ROC
a. avec erf(x) =2√π
∫ x
0e−t2
dt et erfc(x) = 1− erf(x)
Pe =
1 + erf
τ − α√
2σ2x +σ2
pNs
v.s. Pfa =12
erfc
τ√
2σ2x +σ2
pNs
Paramètres d’influenceLe RTS et le RTB
182 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Courbes de performances
183 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Spread-spectrum (étalement de spectre)
Principe
L’identifiant d est un vecteur de Ns réalisations (précises) d’un bruitblanc dont la DSP s’étale uniformément sur toutes les fréquences[0,Fc ], de sorte à :
étaler l’information tatouée sur différents coefficients spectraux : lapuissance instantannée de la transmission est réduite mais sonintégration par la corrélation est d’autant plus élevée que Ns est grandintroduire du secret :
l’identifiant est obtenu par un générateur de nombre pseudo-aléatoireinitialisée à l’aide d’une clé secrête dans le respect des principes desécurité de Kerckhoffs a
la direction de tatouage est donc secrète parmi ≈ 2Ns possibilités
assurer la décorrélation entre le signal audio, la perturbation etl’identifiant
a. la sécurité doit résider seulement dans 1 paramètre inconnu de l’attaquant
184 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Robustesse aux attaques
Definition (Robustesse d’un système de tatouage)
Capacité d’un récepteur à détecter l’identifiant même en présenced’attaques sur le signal→ mise en place de contre-mesuresspécifiques aux attaques
Robustesse à la compression
Attaque : non-représentation des composantes hautes fréquences
Contremesure : limiter la bande de fréquences de l’identifiant (Fc choisidans les basses fréquences, typiquement 11 kHz pour résister au MP3à 128 kbits/s)
185 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Robustesse aux attaques
Cropping
Attaque : le signal analysé estun extrait du signal tatoué
Contremesure : répétition del’identifiant tout au long du signalde sorte que le détecteur traiteune valeur moyenne decorrélation
Avantage : augmentation duRTS après projection dans ladirection d
185 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Robustesse aux attaques
Time-Stretching
Attaque : modification de la fréquence d’échantillonnage du signal reçuen augmentant ou diminuant la vitesse de lecture de ce dernier, voiresuppression d’échantillons au hasardContremesure : mise en place d’un mécanisme de synchronisationavec corrélation par fenêtre glissante : calcul de la fonctiond’intercorrélation entre y et d et recherche de maxima indiquant
1 la position éventuelle d’un identifiant2 une mesure de ressemblance entre le signal y et d
Incovénient : augmentation du coût de calcul du récepteur
185 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Robustesse aux attaques
Ajout de bruit
Attaque : augmentation de σ2p
Contremesure :forcer le pirate à ce que le bruit qui met en déroute le récepteur soitsuffisamment puissant pour dégrader la qualité du signal audio, enaugmentant le RTSutilisation d’un modèle psychoacoustique, donnant (sous la forme d’unseuil) la DSP maximale d’un bruit ajouté mais inaudible en présence dusignal hôtemise en forme de l’identifiant par un filtre H(z) dont la réponse enfréquence égale le seuil de masquageAu récepteur, inversion de la mise en forme psychoacoustique avecrecalcul du masque avant calcul des corrélations
Avantage : Augmente globalement les performances du récepteurmême en l’absence d’attaque mais si introduit des erreurs à cause durecalcul des seuils
185 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Exemples historiques
Example (Margaret Thatcher et les fuites d’information (1986))
Des fuites d’information vers la presse étaient à déplorer dans lesministères britaniques. Pour remonter à la source, les traitements detextes ont été reprogrammés, de sorte à ce que l’"espace entre lesmots" soit unique
186 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage pour la traçabilité : lefingerprinting
+
’DA3 0E1’
Le petit poucet
+
’123 AFC’
BDD des ventesLivre Marque AcheteurLe petit poucet ’123 AFC’ AliceLe petit poucet ’DA3 0E1’ Bob...
Serveur
Information cachée = Licence numériqueRécepteur = Décodeur = "quelle licence ?"Effet dissuasif (vente de livres audios), voire répressif (cinéma)
187 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Contraintes & critères de performances
Propriété TraçabilitéContenu caché Marque Licence
Débit ↓↓ ≈Imperceptibilité ↑↑ ↑↑
Robustesse ↑↑ ↑↑Coût ≈ ↑
Récepteur détecteur décodeurPerformance Pe/Pfa TEB
188 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Une chaîne de communication
ModulationCorrélation
Dictionnaire d’émissionEMETTEUR CANAL RÉCEPTEURD = {dm}m=0..M−1
Dictionnaire d’émissionD = {dm}m=0..M−1
Décision
p(n)
α
x(n)
Signal
v(n)
moduléSignal Tatouage
t(n)
Bits
bl y(n) y(n) bl
Signal
audio
tatoué
Objectifs
Licence binaire {bl}l∈[0..L−1] avec débit d’insertion moyen (≈ 100 bits/s)
Robustesse élevée aux manipulations standards et aux attaques(compression, filtrage, désynchronisation) impliquant descontre-mesures identiques au cas précédent
189 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Modulation
Dictionnaire D = {d0,d1}
Orthonormalisé d0 = d⊥1 et||d0||2 = ||d1||2 = 1
Vecteurs SS, de durée Ns
ModulationSur la l-ième fenêtre de signal, le bit bl est modulé de sorte quev = dbl
190 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Décodeur
Objectif
Décoder l’information cachée, i.e. la séquence de bits {bl}l=1..L
Corrélateur
Projection de y sur l’espace vectoriel engendré par DRecherche de similitudes
bl = arg maxi=0,1
〈y,di〉Ns
191 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances
Critères de performance
Pe = Prob(bl 6= bl ), probabilité d’erreur de décodage, estimée par le
Taux d’Erreur Binaire TEB =nbre de bits décodés avec erreur
nbre bits total
Hypothèses de calcul
Signal audio reçu y = x + αdbl + p avec x (resp. p) vecteur de Nsréalisations d’un bruit blanc N (0, σ2
x ) (resp. N (0, σ2p))
Donc ∀i ∈ {0,1}, ci =〈x + p,di〉
Ns= N
(0,
(σ2x + σ2
p)σ2di
Ns
)+
α
{1 , si i = l0 , si i 6= l
192 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances
Probabilité d’erreur
Pe =12
erfc
(√α2Ns
(σ2x + σ2
p)
)
Paramètres d’influenceLe RTS et le RTB, d’où la mise en forme du signal modulé suivant leseuil de masquage pour augmenter le RTS et forcer le pirate àintroduire un bruit dégradant la qualité du contenu pour mettre endéfaut le détecteur
Remarque : Résultat classique de communication numérique pourune chaîne à deux bruits : le bruit audio x et le bruit de perturbation p
192 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Réglage du gain ciblé sur l’inaudibilité : versun tatouage semi-informé
ModulationCorrélation
Dictionnaire d’émissionEMETTEUR CANAL RÉCEPTEUR
Dictionnaire de réceptionD = {dm}m=0..M−1D = {dm}m=0..M−1
H(f )
MPA
Décision
p(n)
α
x(n)
Signal
v(n)
moduléSignal Tatouage
t(n)
Symbole
sl y(n) y(n) sl
Signal
audio
r(n)
Signalblanchitatoué
G(f )
Introduction d’un filtre de mise en forme perceptuelle H(z) adaptatif
Introduction en réception d’un égaliseur (type Wiener, FiltreBlanchissant) pour inverser la mise en forme
193 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances : TEB vs. débit (sansperturbations)
FIGURE: Paramétrisation : Dictionnaire avec M = 16 vecteurs, 20 signauxaudio, 104 bits
194 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Réglage du gain ciblé sur le décodeur : versun tatouage informé
Information adjacente à l’emetteur : le bruit audioDétection sans erreur (en l’absence de bruit) du bit bl = 0 si
〈y,d0〉Ns
>〈y,d1〉
Ns⇒ 〈x,d0〉
Ns+ α >
〈x,d1〉Ns
Adaptation du gain α à la direction du signal audio
Paramétrisation : R = 50 bits/s, ε = 0.2195 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Robustesse
FIGURE: Paramétrisation : 20 signaux mono, Débit 206 bit/s, avec : 1=Sansperturbation, 2,3=Compression MPEG (96, 64 kbit/s), 4,5=Filtrage*(passe-haut 250 Hz, passe-bas 9 kHz, 6=Ajout d’écho (40ms, facteur 0.1),7=Sous-échantillonnage (22.05 kHz), 8=Quantification (12 bits), 9=BBAG (30dB), 10=Amplification (1/2), 11=Dynamique* (1 :2)
196 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Exemples historiques
Example (Stéganographie linguistique : Tombe de JohnMcCaffrey (Montréal))
JOHNFree your body and soulUnfold your powerful wingsClimb up the highest mountainsKick your feet up in the airYou may now live foreverOr return to this earthUnless you feel good where you are !Missed by your friend
Example (Encre invisible)
197 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage pour la transmission de donnéescachées
Tatouage = canal de transmission d’une information supplémentaire
Récepteur = Décodeur→ Relecture de l’information
198 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage pour la transmission de donnéescachées
Example (Projet scientifique)
Information à destination d’une application cible adjointe au player :ANR DReaM (Séparation de sources informées pour les CD audio),ANR Artus (Téletexte par animation d’un clône à destination desmal-entendants)
Cadre Forensics/Steganographique : Transmission secrète illégale(pédographie, terrorisme)
198 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage pour la transmission de donnéescachées
Pertubations dans le canal
Absence de pirate donc pas de contraintes de robustesse si ce n’estaux manipulations (de traitement du signal) autorisées sur le contenu
Présence potentielle d’un espion cherchant à intercepter lacommunication secrète→ contrainte d’indétectabilité statistique pourcontrer la steganalyse
198 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Contraintes & critères de performances
Propriété Traçabilité Contenu Steganographieaugmenté
Contenu caché Marque Licence Bits BitsDébit ↓↓ ≈ ↑↑ ↑
Imperceptibilité ↑↑ ↑↑ ↑↑ ↑↑Robustesse ↑↑ ↑↑ ↓ ↓↓
Coût ≈ ↓ ↓↓ ↓↓Récepteur détecteur décodeur décodeur décodeur
Performance Pe/Pfa TEB TEB TEBIndétectabilité ↓↓
TABLE: Contraintes en fonction de l’application
199 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Le Least Significant Bit
Principe
Technique substitive qui remplace le bit de point faible parl’information de tatouage
Example
LSBInformation à cacher : "hello" = ’01000100...’ de 1er bit à cacher b1 = 0
Emetteur : Pour la n-ième composante hôte x(n) =‘1010 0011 1010 0001’ (quant. 16 bits), la composante tatouée est y(n)= ‘1010 0011 1010 000bn’
Récepteur : relecture du message par relecture des bits de poids faible
200 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Le Least Significant Bit
Performances
Avantages : Haute capacité d’insertion, faible dégradation perceptive
Inconvénients : très faible robustesse, très forte détectabilité (analysestatistique des LSB sur une image originale (loi non uniforme) vs surimage tatouée (loi uniforme))
200 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Tatouage Haute Capacité
(Insertion)EMETTEUR
CANAL (Détection)RÉCEPTEUR
Signaltatoué
Signaltatoué dégradé
InformationreçueInformation Tatouage
Signal audio Perturbations
Side information : Pleine exploitation de la connaissance du signalaudio pour le choix de la stratégie d’insertion
Tatouage = f( Information ) : C =12
log2
(1 +
α2
σ2x + σ2
p
)bits
Tatouage = f( Information, Signal audio ) : C =12
log2
(1 +
α2
σ2p
)bits
201 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Interprétation géométrique : les défauts desstratégies SS & Le cône de Miller et Cox
t = αv
Région d’inaudibilité Ri
limitée par la puissancedu tatouage
Région de détectioncorrecte Rd
(x + t)t d1 > (x + t)t d0
Tatouage à l’intersectiondes deux régions
Rd
Rid1
t = αd1
x
d0d2
d3
Configuration :Dictionnaire avec M = 2 vecteurs,
Bruit de canal nul,Transmission du symbole ’1’
202 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Interprétation géométrique : les défauts desstratégies SS & Le cône de Miller et Cox
Configurationtrès favorable :Tatouage non informésolution t = αd1
favorable :Existence d’un tatouagesolution
topt ∝ d1 − d0
défavorable :Garantir la proximité de larégion de détection et dusignal audio
Rd
Rid1
t = αd1
x
d0d2
d3
Configuration :Dictionnaire avec M = 2 vecteurs,
Bruit de canal nul,Transmission du symbole ’1’
202 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Interprétation géométrique : les défauts desstratégies SS & Le cône de Miller et Cox
Configurationtrès favorable :Tatouage non informésolution t = αd1
favorable :Existence d’un tatouagesolution
topt ∝ d1 − d0
défavorable :Garantir la proximité de larégion de détection et dusignal audio
Rd
Ri
t = αd1
d1
topt
d0
x
d2
d3
Configuration :Dictionnaire avec M = 2 vecteurs,
Bruit de canal nul,Transmission du symbole ’1’
202 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Interprétation géométrique : les défauts desstratégies SS & Le cône de Miller et Cox
Configurationtrès favorable :Tatouage non informésolution t = αd1
favorable :Existence d’un tatouagesolution
topt ∝ d1 − d0
défavorable :Garantir la proximité de larégion de détection et dusignal audio
Rd
d1
d0x
Ri
t = αd1
topt2
topt1
d2
d3
Configuration :Dictionnaire avec M = 2 vecteurs,
Bruit de canal nul,Transmission du symbole ’1’
202 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Costa : vers un dictionnaire structuré(Modèle BBAG)
Objectif
Diminuer l’écart entre les régions de détection
Rd
Ri
d0
d1
t = αd1
x
D = {d0, d1}t = αdbl
Rd
Ri
Rd
Rd
Rd
xd1
0
d30d0
0
d11
d01
d31
d21
d20
t = αd31
D0 ={dm
0 }m=0..M−1,D1 == {dm}m=0..M−1
t = αdqbl
q = arg maxp∈[0,Q−1]
xtdpk
203 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Performances (Modèle BBAG)
FIGURE: Stratégie sans dictionnairestructuré
FIGURE: Stratégie avec dictionnairestructuré, Paramétrisation :Dictionnaire M = 2 vecteurs,Sous-dictionnaire biorthogonaux, 106
bits, NbRSB rapport entre l’énergie dutatouage et la puissance audio
Limite : structuration du dictionnaire204 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Scalar Costa Scheme (quantif. scalaire)
Insertion : y(n) = Q(x(n) + (2b − 1) ∆
4
)− (2b − 1) ∆
4
Détection : recherche de l’atome le plus proche du signal reçu
Optimisation de ∆ pour atteindre une robustesse cible
∞
0
−∞
bit 0bit 1
x
yτ 2
p
∆
205 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
QIM/STDM (Quantification vectorielle)
QIM (Quantization Index Modulation)
Généralisation au cas de M symboles (codage de log2(M) bits) sur labase de M quantifieurs qm
Insertion du symbole k : y = Qk (x)
Détection : k = arg minm∈[0,M−1] ||y−Qm(y)||2
STDM (Spread Transform Dither Modulation)
QIM appliqué sur la projection du signal hôte x sur un vecteur d
PerformancesDébit proche de la capacité théorique
206 / 207
Multimédia : de la compression au tatouage
Introduction Preuve de propriété Traçabilité de contenus Canal caché Conclusion
Conclusion : le quatuor infernal
Sé urité
Capa ité
Imper eptibilité
Robustesse
Tatouage : profiter des défauts des systèmes de perception pour ajouterde l’information à un contenu (inversement à la compression)
Différentes techniques avec une contrainte absolue : l’imperceptibilité etdes contraintes spécifiques à l’application (sécuritaire, contenuaugmenté, ...)
Un triple compromis : débit, robustesse, sécurité dépendant del’application
Problème de législation et d’interférences entre usages
207 / 207
Multimédia : de la compression au tatouage