Introduction à la compression Audio - SoC: sochassan/signal-son.pdf · On segmente le signal en...

download Introduction à la compression Audio - SoC: sochassan/signal-son.pdf · On segmente le signal en unité temporel de 20 à30ms ... Musique à la demande, streaming, radios ... Le spectre

If you can't read please download the document

Transcript of Introduction à la compression Audio - SoC: sochassan/signal-son.pdf · On segmente le signal en...

  • 1

    Master de sciences et technologieMention : InformatiqueCours : traitement du signal

    Yvan BONNASSIEUXEmail : [email protected]

    2008-2009

    Introduction la compressionIntroduction la compression Audio Audio

    http://www.upmc.fr/

  • 2

    Sommaire

    IntroductionIntroductionNumrisation dun signalNumrisation dun signalCompression DifferentielCompression DifferentielAppareil phonatoire humain Appareil phonatoire humain Compression LPCCompression LPCAppareil auditif humain Appareil auditif humain Compression MPEG II layer 3Compression MPEG II layer 3

  • 3

    IntroductionIntroduction

  • 4

    LE SON, quest ce que c est ?Exemple de londe sonore dun bruit

    Son musical = frquence fondamentale+ harmoniques+ Oscillations alatoiresBruit =

  • 5

    Dfinition Objectivement : phnomne physique dorigine mcanique, fluctuations rapides de la pression de lair au niveau des oreilles (ondes acoustiques)

    Subjectivement :sensation traduisant la perception par le cerveau dune information extrieure

    Le non audible : infrasons (15ou20kHz).

  • 6

    Emission - Propagation

    Propagation sous forme dondes :

    pression

    vitesse vibratoire

    intensit sonore = flux dnergie par unit de surface

  • Son Onde sonore molcules du milieu vibrent autour dune position moyenne

    La vitesse varie suivant le milieu de propagation Facteurs : densit (masse volumique),pression, temprature, dilatation

    Vitesses (m/s) : ordre de grandeur ( 0C ):

    Dans lair 341

    Eau douce 1435

    Eau de mer 1512

    Acier 5000

    Aluminium 6400

    V

    son dans un solide

    > V

    liquide

    > V

    gaz

    Emission - Propagation

    7

  • Reprsentation du son Reprsentationtemporelle:amplitude-temps

    clarinette bb

    oiseau xylophone

    Evolution temporelle de lenveloppe peu dinformations smantiques/caractristiques

    Regarder le son ninforme pas sur son contenu frquentiel: le son nest pas une image!8

  • Reprsentation frquentielle: amplitude-frquence

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

    500

    1000

    1500

    2000

    2500

    3000

    3500

    4000

    Forme temporelle de l'onde ringin.wav conv.8bits-->12bits; Frquence=11025

    TEMPS(sec.)(=nbr.d'ch./fech)

    FT

    500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    x 105 FT (ABS) de l"onde totale ringin.wav

    FREQUENCE(Hz)(=nbr.d'ch./dure aqui

    Spectre perte de linformation temps

    Reprsentation du son

    9

  • Reprsentation Temps-frquence: amplitude-temps-frquence

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

    500

    1000

    1500

    2000

    2500

    3000

    3500

    4000

    Forme temporelle de l'onde ringin.wav conv.8bits-->12bits; Frquence=11025

    TEMPS(sec.)(=nbr.d'ch./fech)

    Dcoupage-FT court

    terme

    signal quasi stationnaire courte dure.

    On segmente le signal en unit temporel de 20 30ms

    FT des segments - caractristiques du signal plus significatives

    Reprsentation du son

    10

  • Reprsentation Temps-frquentielle: niveau de couleur-frquence-temps(Spectrogramme, sonagramme)

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

    500

    1000

    1500

    2000

    2500

    3000

    3500

    4000

    Forme temporelle de l'onde ringin.wav conv.8bits-->12bits; Frquence=11025

    TEMPS(sec.)(=nbr.d'ch./fech)

    500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    x 105 FT (ABS) de l"onde totale ringin.wav

    FREQUENCE(Hz)(=nbr.d'ch./dure aqui

    Reprsentation du son

    11

  • Reprsentations du SON a

    Reprsentation du son

    12

  • Reprsentations des SONS a b i aaa

    Reprsentation du son

    13

  • 14

    Pourquoi la compression ?Beaucoup de bits pour peu despace ou de temps

    Dbit binaire brut CD : 2 * 16 * 44100 = 1.411.200 bpsCD audio : 10,584,000 octets / minuteCD : 680 Mo soit seulement 74 min 30s Tlphone RTC 64kbps (GSM 13kbps) Modem ADSL 1Mbps

    Robustesse : permettre la correction derreur par redondance

  • 15

    Codage parole , Codage musique

  • 16

    Stockage, tlchargement: Equipementsaudio,CD,DVD,cartesmmoiresMessageries,rpondeurs

    Diffusion Audio tlvisions,radiosnumriques diffusionsurInternet:Musiquelademande,streaming,radios

    Communication interpersonnelle & de groupe tlphonie(fixe,mobiles,IP) audio/visioconfrences,chats,forums communicationsmilitaires communicationsparsatellites,flottesembarques,..

    Des applications/contextes varis

  • 17

    Gamme de qualit

  • 18

    Caractristique du signal audio

  • 19

    Ncessit de la normalisation

  • 20

    Principaux organisme de normalisation

  • 21

    Codage : les technologies I

  • 22

    Codage : les technologies II

  • 23

    Numrisation dun Numrisation dun signalsignal

  • 24

    Signal Analogique ou Numrique Signal Analogique

    Signal numrique

    Pour traduire un signal quelconque, on associe chaque instant lamplitude du dit signal lamplitude dun signal lectrique image.

    BruitBruit

    T e m p s

    A m p l i t u d e

    3 . 5

    1

    0

    5S i g n a l r e s t i t u

    S i g n a l b r u i t

    Codage binaire2niveauxlectriques:unpourcoder1;lautrepourcoder 0

    Insensible au bruitInsensible au bruit

  • 25

    chantillonnage des signaux Dfinition

    t

    e ( t )

    t

    e e c h ( t )

    T e

    Systme numrique nombre finit de donnes.

    Dcomposer en une suite de valeurs ponctuelles chantillonnage.

    Priode d'chantillonnage Te.

    e t e t t nT e t pgn ten

    Te* ( ) ( ). ( ) ( ). ( )= ==

    +

    chantillonneur idal

    Nombre fini de donnesNombre fini de donnes

    e(t)unsignaltemporelanalogiqueTelapriodedchantillonnagee ( t ) e * ( t )

    T e

  • 26

    Comment choisir la frquence d'chantillonnage, de faon permettre la reconstruction de e(t) partir de e*(t) ?

    |E(f)|

    f

    Fmax-Fmax 0

    Rversibilit de lchantillonnage

    Sceptre du signal chantillonn E f F e t F e t pgn t

    E fTe

    Pgn f

    TeE f f n

    T

    TeE f n

    T

    Te

    Te

    Ek

    ek

    * *( ) ( ( )) ( ( ). ( ))

    ( ) * . ( )

    ( ) * ( )

    ( )

    = =

    =

    =

    =

    =

    +

    =

    +

    1

    1

    1

    1

    1 / T e E ( f )

    f

    - F m a x F m a x- F e- 2 F e F e 2 F e

    .

    E * ( f )

    1 / T e E ( f )

    f

    - F m a x F m a x- F e- 2 F e F e 2 F e

    .

    E * ( f )R e c o u v r e m e n t d e s p e c t r e

  • 27

    Thorme de Shannon

    Pourpouvoirenvisagerlareconstructiondusignale(t)partirdusignale*(t),ilfautdoncrespecterl'ingalitsuivante:

    Fe>2.FmaxFe>2.Fmax..avecF borne rieure de E fF Frquence d chantillonnageemax sup ( )

    '

    1 / T e ( f)

    f

    - F m a x F m a x- F e- 2 F e F e 2 F e

    .

    E * ( f )

    - F e / 2

    1

    F e / 2

    Minimum2chantillonsparpriodepourdfinirunesinusodee(t)=sin(2F0t).

    Donc,silafrquencedee(t)estF0,ondoitchantillonnerF

    0

    /2

    Dfinition

    Autre vision

  • 28

    Filtre anti-repliementattnuation du spectre du signal d'origine au del de Fe/2

    filtre anti-repliement.

    f

    - F e F e

    .

    E ( f )

    1- B B

    - B m B m

    Dans la ralit, tout filtre anti-repliement possde une bande de transition quireportelabandepassantelimiteBmbienau-deldelabandepassanteB.Dansce

    cas,lethormedeShannondevient:Fe>2.BFe>2.B

    mm

    >2.B>2.B.Exemples

    leCDAudio Fe=44.1KhzLigneMIC Fe=8Khz

  • 29

    chantillonneur bloqueurNcessit d un bloqueur

    Bloqueur d ordre Zro

    convertisseur analogique numriqueuntempsdeconversionnonnulSignauxchantillonns bloqus.Le blocage est dune dure dune priode dchantillonnage TLe blocage est dune dure dune priode dchantillonnage Tee..

    0t

    ( t ) ( t ) h ( t )B l o q u e u r

    1

    0t

    1 h ( t )

    T e

    t

    e ( t )

    t

    e b l o ( t )

    T e

    Fonctiondetransfert

    Formetemporelledunsignalchantillonnbloqu

  • 30

    chantillonneur bloqueurs i n c ( t )

    t

    1

    1 2- 1- 2

    TF d un bloqueur

    B t TT f

    T fo ee

    e

    ( )sin( )

    =

    ( )e t e t b t e t pgn t b tBOZ Te( ) * ( ) ( ) ( ) ( ) ( )= = 0 0 ( )E fTe

    E f Pgn f B f

    E f E f Pgn f Te fTe f

    boz Te boz

    bozTe

    ( ) ( ) ( ) ( )

    ( ) ( ) ( ) sin( . . ). .

    /=

    =

    11

    1

    TF d un Signal chantillonn bloqu

    TF

    1 / T e ( )

    F r q u e n c e

    - F m a x F m a x- F e- 2 F e F e 2 F e

    .

    * ( )

    1 1 / T e ( )

    F r q u e n c e

    - F m a x F m a x- F e- 2 F e F e 2 F e

    .

    * ( )

    1

    Perte de rversibilit mais modification limite sur le 1Perte de rversibilit mais modification limite sur le 1

    erer

    lobe lobe

  • 31

    Transforme de Fourier discrteDfinition

    { }X k x i e k Nj N iki

    N

    ( ) ( ) ...=

    =

    2

    0

    1

    0 1

    SoitNchantillonsx(i)avecdeschantillonsdusignalx*(t).LaTransformedeFourierDiscrteT.F.D.noteX*(f)estdfinieparlesNcoefficientsX(k)

    Remarques importantes

    Lecalculneprendapparemmentpasencomptelafrquence

    f X k X kFNe= + =( ) ( )1

    Laprcisioncestdirelcartentredeuxraiescontigusestdonnepar:

    FefrquencedchantillonnageetNlenombredchantillons

    Pourtreprcis:NouFPourtreprcis:NouF

    ee

  • 32

    Diffrences TFD & TFchantillonnage temporel

    chantillonnage frquentiel

    Problme:Lesignaldedpartestdiscretrepliementdespectre.Solution:filtrepasse-basanti-repliementfiltrepasse-basanti-repliement.

    N / 2 N

    H ( k )

    f

    0

    Lespectreestrptitif:SilenombretotaldesX(k)estN,lespectrediscretformparlesX(k)estsymtriqueparrapportN/2.

    Le spectre est chantillonn.Le spectre est chantillonn.Ilcomporteautantdepointsquelenombredchantillonstemporels.

    Onnersonnedoncqueentre0etFOnnersonnedoncqueentre0etF

    ee

    /2/2

  • 33

    Fentrage :PrincipesDure de la fentre temporelle

    t

    e(t)

    t

    h(t)

    t

    e(t).h(t)

    f

    E(f)

    f

    H(f)

    f

    E(f)*H(f)

    Sinusodeinfinie

    Sinusodetronque

    TF

    TF

    TF

    Pourtretraitnumriquement,lesignalanalogiqueestprlevpendantuntempslimit

    (Nchantillons)(Nchantillons)

  • 34

    Types de fentre

  • 35

    Fast Fourier TransformTFDnadditionsetmultiplication.

    FFTFastFourrierTransformquipourn=2

    k

    n.log

    2

    (n)oprations.ainsipour1024pointsAlgorithmeTFD1024=1048576oprationsAlgorithmeFFT 1024*log21024=10240oprations gainde102

    Nb doprations

    0 200 400 600 800 1000 1200100

    101

    102

    103

    104

    105

    106

    107

    TFD

    FFT

    Nb de points

  • 36

    Quantification du signalImpossibled'enregistrertouteslesvaleursdeschantillonsnumriquement

    codageavecdesmotsinfinis.Nvaleurspossiblepourleschantillons

    codageavecdesmotsdeNbitscodageavecdesmotsdeNbits

    Dfinition

    A m a x

    - A m a x

    0 0 00 0 10 1 00 1 1

    1 1 1

    1 1 01 0 11 0 0

    t

    Notion de pas de quantification : Notion de pas de quantification : q q

    Problmes de la quantificationFaut-ilprendreunpasdequantificationconstantquelquesoitleniveau?

    Commentchoisirlepasdequantificationpourquel'erreurdecodagecorrespondantesoitacceptable?

  • 37

    bruit de quantificationPas de quantification linaireLecodageesteffectuenbinairesurnbits,ceciautorise2nniveauxdiffrents.Entlphonien=8(256niveaux)leDisqueCompact16bits(65535niveaux)

    Commentdfinirlenombredebitsncessaire?bruitdequantification.

    NN

    qqS 22. ==

    Rapport S/B

    NSSdB .6)log(.20 ==

    AttentionlavaliditdececritreAttentionlavaliditdececritre

  • 38

    _

    +

    R

    Ec

    RRRRR 2R

    2R 2R 2R 2R 2R 2RVref

    B5 B4 B3 B2 B1 B0

    Convertisseur CNA rseau R-2R

    Convertisseurs Numriques Analogiques

  • 39

    _

    +_

    +

    _

    +

    _

    +

    Vref

    Vin

    R

    R

    R

    R

    R

    .

    .

    .

    DcodeurSortiebinaire

    Convertisseur C.A.N Parallle ou Flash

    Les Convertisseurs Analogiques Numriques

  • 40

    Convertisseurs Numriques Analogiques

    Convertisseur par approximations successives

  • 41

    S0 R

    -Vref

    _

    +

    Ec

    S1

    _

    +

    Horloge Logiquedecontrle

    Compteur

    N

    Vs1

    Out

    Lancementconversion

    Les Convertisseurs Analogiques Numriques

    Convertisseur CAN Intgration

  • 42

    Lancementconversion

    _+

    CNA

    Compteur&

    Horloge

    Ck

    RAZ

    N...

    Vin

    Convertisseur CAN utilisant un CNA

    Les Convertisseurs Analogiques Numriques

  • 43

    CompressionCompressionDiffrentielleDiffrentielle

  • 44

    PCM (Pulse Code Modulation)

    Cestlaquantificationbrute

    PCM(ouMIC,ModulationparImpulsionsetCodage)utilisparlerseaunumriqueintgrationdeservices(RNISouISDN,IntegratedServicesDigitalNetwork).

    UnchantillonnagepralableUnequantificationnonuniformeprivilgiantlesamplitudesfaibles

    Permetdavoirunsignaltlphoniquesur8bitsavecunS/Nquivalentunequantificationsur12bits

    NormeinternationaleG.711(dpasseformat*.audeSun)

    http://fr.wikipedia.org/wiki/G.711

  • 45

    Pas de quantification non linaireOnconstruituncodagequiassurera: Unequantificationplusfinedeschelonsdefaibleniveau

    UnequantificationplusgrossiredeschelonsdefortniveauLoiA:Europe Loi:USA

    0 2 4 6 8 10-1

    -0.5

    0

    0.5

    1

    Temps (s)0 2 4 6 8 10

    -1

    -0.5

    0

    0.5

    1

    Temps (s)

  • 46

    One bit PCM MIC Delta (Delta Modulation)ReconstituerunsignalanalogiquequantifiXq(k)soitenajoutantsoitenretranchantunequantitfixe lavaleurprcdenteXq(k-1),quisoitleplusprspossibledusignalX(k)transmettre.LesignaltransmisE(k)estbinaire:"onebitPCM".Exempledetransmetteur:

    Comparateur

    Retard

    Eq(k)

    Xq(k)

    xq(k-1)

    X(k)X(k) Xq(k)

    E(k)

    Sifaible(bonnersolution),lafrquenceFsdoittretrsimportante(pbdansnotrecas).

  • 47

    Comparateur

    Retard

    Eq(k)

    Xq(k)

    Xq(k-1)

    X(k)X(k)Xq(k)

    E(k)

    ampl.

    Modulation Delta adaptativeObjectif:rduitleseffetsdedpassementdepentesansaugmenterlebruitdequantification.Lacorrectionajouterouretrancherlavaleurprcdenteestmultiplieoudiviseparuncoefficientselonquelacorrectionchangedesensounon.

    LerapportsignalbruitducodageADMesttypiquementamliorde814dB,etlonobtientunemeilleuredynamique(cartentresignauxfaiblesetforts).Latransmissiondelavoixpeututiliserunchantillonnage68foisseulementsuprieurlafrquencedeshanon,estdoncutiliseruncanaldelargeur24-32kHz.

  • 48

    Appareil Appareil Phonatoire humainPhonatoire humain

  • 49

    Sortie Bouche

    Sortie Nasale

    Cage Thoracique

    Force Musculaire

    Trache & Bronche

    Larynx

    CordesVocales

    PHARYNX

    NEZ

    BOUCHE

    Velum

    Diagramme schmatique du

    conduit vocal

  • 50

    Sons Voiss et non Voiss

    Voiss:contenupriodiquemarquefrquencefondamentale:pitch

    Homme:40Hz250HzFemme:150Hz750Hz

  • 51

    Gnration de la Parole : principe

  • 52

    Gnration de la Parole : Modle

  • 53

    CompressionCompressionLPCLPC

  • 54

    Codage linaire prdictif pour la parole (LPC)

  • 55

    Notion de formants :

    Reconnaissancedelaparole:reconnaissancedesformants

    Chaquevoyelleaentretroisetcinqformantspoursedistinguer.

    Exemple:Chuchot:beaucoupdebruit:spectrecontinuVoixgrave:lespectrederaies(harmoniquesdusonfondamental)Voixaige:harmoniquessontpluscarts

  • 56

    Notion de formants (II):

  • 57

    Notion de formants (III) :

    Frquencedu1erformant(F1):dpenddelacavitpharyngaleFrquencedu2meformant(F2):dpenddelacavitbuccaleFrquencedu3meformant(F3):dpenddelapositiondeslvres

  • 58

    Codage linaire prdictif pour la parole (LPC)

    Gnrateur de bruit

    Gnrateur dimpulsion

    frquence (hauteur du son)

    sons voiss ou non

    gain

    +

    filtre transversal

    coefficients

    Adapt la compression de la voieBas sur la modlisation de lappareil phonatoireon arrive reconstituer la voie avec une dizaine de coefficients du filtre, et un chantillonnage toutes les 20 msec

  • 59

    LPC principe (I) Modle source Filtre,LaparoleS(z)modlisepar:

    S(z)=P(z).H(z)S(z)=P(z).H(z)parolevoiseP(z)trainpriodiquedimpulsionsS(z)=N(z).H(z)S(z)=N(z).H(z)parolenonvoiseN(z)bruitblanc

    SoitS(z)=G.E(z).H(z)S(z)=G.E(z).H(z)avec GGgainE(z)E(z)sourcespectreplatH(z)H(z)filtredesynthse

    OuS(z)=G.E(z)/A(z)S(z)=G.E(z)/A(z)avecFiltredanalyse=

    =M

    i

    ii zazA

    1)(

    Prdiction linaire Corrlationentrechantillonsadjacentsdelaparole connaissancedepchantillonsjusqulinstantn-1permetde

    prdirelchantillonsuivant:

    =

    =++=p

    iinipnpnnn sssss

    111 ...

    )().().()...).(()(1

    11 zFzSzzSzzzSzS

    M

    i

    ii

    pp ==++=

    =

  • 60

    LPC principe (II) Doncerreurdeprdiction nnentreprdictionetsignalvritable

    ==

    =

    p

    iininnnn ssss

    1

    ou

    ==

    =

    p

    i

    ii zzSzSzSzE

    11).()()()(

    Prdictionlinaire modleacoustiquelinairedeproduction Identification erreurrsiduelle nn=sourcedexcitationfiltreinverseA(z)A(z)associaufiltreprdicteur(enprenantM=p)

    =

    =

    =+p

    iini

    p

    iinin sanGes

    11)(

    IdentificationdeA rsiduelspectreplatdoncexcitation==bruitblancuneseuleimpulsion

    ModlisationsourceenLPCsoitgnrateurimpulsion voise voise bruitblanc non voise non voise

  • 61

    LPC principe (III)

    Dtermination des cfficients de prdictionDtermination des cfficients de prdiction minimisationdelerreurdeprdiction

    Soitsurlaplagetemporellen0n1(trame):

    Lenimechantillonestdfiniparx(n):unecombinaisonlinairedepchantillonsprcdents.unrsiducorrespondantlerreurdeprdiction(n)

    s(n)=

    1

    s(n-1)+

    2

    s(n-2)++

    p

    s(n-p)+(n)

    2

    1

    2

    =

    =

    p

    iininn ss Erreurquadratique

    =

    =1

    0

    2n

    nnnE Erreurtotale

    Minimisation==onchercheles

    kk

    telsque:

    0=

    k

    E

    Soit 021

    1

    0

    =

    =

    =

    p

    iinin

    n

    nnkn sss

  • 62

    LPC principe (IV)

    Doncsystmersoudre: =

    ==

    =1

    0

    1

    0

    )(1

    n

    nninkn

    p

    ii

    n

    nnnkn ssss pk 1

    Quidonneparchangementdevariable

    =

    =p

    ikik i

    cc1

    0 avec

    ==

    1

    0

    n

    nninknk ssc ipk 1

    Plusieursmthodesdersolutionpossiblesclassiquement:AutocorrelationAutocorrelationCarsionprendsuneplageinfinipourlerreurtotal

    +

    ==

    ninknk ssc i

    PlusieursalgorithmesParexempleapprochercursive:N.Levinson(1947)modifiparJ.Durbin(1959)

    Dtermination des cfficients de prdiction (2)Dtermination des cfficients de prdiction (2)

  • 63

    quationauxdiffrences unchantillon,reconstitudaprsleschantillonsprcdents.

    Sescoefficients(formantsformants)ajustspourminimiserlcart(quadratiquemoyen)entrelesignalprditetlesignalrel. Rsolutiondunsystmedquationslinaires:plusieursmthodespossibles.

    Remarques :Pourlessonsnasaux,Modleplusununsimpletubelenez=branchelatrale deszros,mathmatiquementparlant,etrend

    algorithmepluscomplexeslesalgorithmes.problmesouventnglig,estdlguauniveaudursidu.

    Certainespositionsdelalangueconduisentaussiunepriseencompteparleseulrsidu, unnombreimportantdebits!!

    LPC principe (V) Dtermination des cfficients de prdiction (3)Dtermination des cfficients de prdiction (3)

  • 64

    filtretransversal+amplificateurajustspourimiterlesfiltresdescordesvocales.

    Le filtre est mathmatiquement une combinaison linaire des chantillons successifs(Commeleprdicteurlinaireprcdent)

    Uncodeurtransmet:lafrquence(6bits,0=bruit)legaindelamplificateur(6bits)lesvaleursdescoefficients(6bitsx10)8bitspourlacorrectionapporterlasynthse.

    Uncanaldetransmissiondundbitentre3kbpset8kbpspeuttresuffisant.Voixrobot2.4kbps

    LPC principe (VI)

    80bitstoutesles20msec.

  • 65

    Codage prdictif de la norme G.S.M.06.10 (I)

    AlgorithmeRPE-LTP (regular pulse excitation- long term prediction)RPE-LTP (regular pulse excitation- long term prediction)

    construitdestramesde260bitspartirde160chantillonsPCM13bits,8kHz.Unesecondenencessiteque1625octets,etun1Mosuffitpour10mn.Untramecouvredonc20ms(160ch.):unepriodepourunevoixtrsgrave,et10pourunevoixtrsaigu.

    Deux filtresDeux filtressontutiliss:Lunfonctionnecourtterme(shorttermprediction),reconstituelerledescordesvocalesetautrescavitsrsonnanteshumaines.Lautrefiltreexciteleprcdentetreconstitueunmlangedondesetdebruitparprdictionlongterme.

  • 66

    Comparaison des codages pour la voixMthode tauxdch.(kHz)bits/ech. Dbit(kbps)DMDM 64-12864-128 11 64-12864-128PCMPCM 88 7-87-8 56-6456-64ADMADM 48-6448-64 11 48-6448-64DPCMDPCM 88 4-64-6 32-4832-48ADPCMADPCM 88 3-43-4 24-3224-32LPCLPC 0.04-0.1 0.04-0.1 ~80~80 2-82-8CELPCELP 4.8 (conference)4.8 (conference)GSMGSM 0.05 0.05 ~260~260 13 (mobile)13 (mobile)

    Codage prdictif de la norme G.S.M.06.10 (II)

    Son (OLE2)

    Exemple de son GSM8kbps8kbps

    44kbps44kbps

    MusiqueMusique ParoleParole

  • 67

    Codage CELP

    Rduireencoreledbit pourcoderlersidu:codageCELP (Code Excited Linear Prediction)CELP (Code Excited Linear Prediction),n

    utiliseunlivredecodespluttquungnrateurdimpulsions.Lanalysedursiduessaiedetrouverchaqueinstant,lersidutypeleplusprocheparmiceuxpropossparlelivredecodes.Lesynthtiseurutilisesoncodepourexciterlefiltreformants.Leproblmeestquelenombredecodesdoittretrsimportantsilonveutunequalitetintelligibilitcorrecte,etconsidrertoutesleshauteursdevoix.Lesconcepteursnefixentquequelquescodespouruneseulehauteurdevoixetunutiliseunautrelivredecodes,adaptatif,videaudpart,quiseremplitdurantlefonctionnementdusystme

  • 68

    Appareil auditif Appareil auditif humainhumain

  • 69

    Description de l appareil auditif humain

    entre 700 Hz et 1.4 kHz pour les osseletsenvirons 3 kHz pour le conduit auditif.Heureusementcesrsonancessontpeumarques.latransmissiondessonspartirdelacochleestexcellenteentre600et6kHz600et6kHzmaismauvaiseendessousetaudessusdeceslimites.

    Mcanismedelatransmission

  • 70

    Notions de perception auditiveNotion de sonie subjective

    S K I= .log( )

    lasonie,c'est--direlasensation(subjective)d'intensitsonore,estproportionnelleaulogarithmedel'excitation

    chelle des dB acoustiques

    Lpp

    IIdB

    =

    =

    20 10

    0 0. log . log

    rfrencelapressionacoustiquep0correspondantauseuildeperceptiond'unsonpur1000Hz

    p

    =2.10

    -5

    PaetI

    =10

    -12

    W/m

    2

    chelledemesuredesniveauxdepressionsoud'intensitacoustique:

    loiditedeWEBER-FECHNER

    Lasensibilitdiffrentielled'intensitestdel'ordrede0.5dB.Lasensibilitdiffrentielled'intensitestdel'ordrede0.5dB.

  • 71

    Niveaux acoustique

  • 72

    Donnes pratiques sur l oreillePerception de la hauteur ( Pitch)

    H H kff

    1 212

    = . log

    LahauteurtonaleH(grandeurde"sensation",subjective)estproportionnelleaulogarithmedelafrquence

    chelle des octaves

    2 1 05912 = .

    CorrespondundoublementdelafrquenceCorrespondundoublementdelafrquenceLagammemusicale:unedivisiondecetintervalleen12demi-tonsgaux12demi-tonsgaux.lerapportdesfrquencescorrespondanttantde

    Quelques chiffresLerapportextrmedesnergiesnormalementaudibles("dynamique"del'oreille)

    1010

    1313

    (130dB).(130dB).

    Lerapportextrmedesfrquencesaudibles

    10 OCTAVES, ou encore 3 DECADES10 OCTAVES, ou encore 3 DECADESSeuilabsoludeperceptionsonore

    1010

    -12-12

    W/m W/m

    22

    bruit d'agitation thermique des molcules d'air est de l'ordre de 10-14 W/m2

  • 73

    Notion de sonie subjectiveDonnes pratiques sur l oreille

  • 74

    CompressionCompressionMPEG II Layer 3MPEG II Layer 3

  • 75

    ObjectifsObjectifs

    Lanumrisationdunsignalaudioconduitdesdbitstropimportant16 bits Fe=48 kHz donne un dbit de 1,5 Mbits/s en stro

    Assurerunequalitsonorequisoitjugetransparente256 kbits/s en stro pour une qualit CDNepasfairedeprsuppossurlesignalaudiocompresserLedcodeurdoittreleplussimplepossible

    Allocation binaire dynamique par sous bande frquentielle

  • 76

    Ide de baseIde de base

    f

    signal

    MiseenFormedubruitdequantificationMiseenFormedubruitdequantificationSelonlesfrquencesenfonctiondunSelonlesfrquencesenfonctiondunmodlePsycho-acoustiquedeloreillemodlePsycho-acoustiquedeloreille

    Ide injecter le maximum de bruit de quantification possible Ide injecter le maximum de bruit de quantification possible mais qui reste inaudible : mais qui reste inaudible : dfinir par bande de frquences le dfinir par bande de frquences le

    nombre de bits de quantification strictement ncessairenombre de bits de quantification strictement ncessaire

    CD:bruitdequantificationconstantCD:bruitdequantificationconstantQuelquesoitlesfrquencesQuelquesoitlesfrquences

    S/NdB=6,02n soit 16 bits pour 96 dB

  • 77

    Ide de baseIde de base

    Travaillerpartramedesonquasi-statiquetemporellement.Dcouperlesignalensousbandesfrquentielle.AllouerchaquesousbandelenombredebitsncessaireetsuffisantReconstruiresimplementlesignal.

    Les problmes. Dfinir la courbe de masquage dynamique de loreilleDfinir la courbe de masquage dynamique de loreille

    Dcoupage en sous-bandes parfait sans augmenter le nombre dinfoDcoupage en sous-bandes parfait sans augmenter le nombre dinfo

    Dcoupage en sous-bandes rversibleDcoupage en sous-bandes rversible

    les Principes.

  • 78

    D c o u p a g e d u f i c h i e r e n P T r a m e d e 2 4 m s ( s o i t 1 1 5 2 e c h a n t i l l o n s p o u r F e = 4 8 k H z )

    C h a r g e m e n t d ' u n f i c h i e r s o n o r e

    D c o u p a g e d e c h a q u e P i m e t r a m e e n 3 2 s o u s b a n d e d e 7 5 0 H z c h a q u e s i g n a l c o n t i e n t s u r 1 6 b i t s l a p a r i e d e l a t r a m e s o n c o n t e n u d a n s s a I m e s o u s b a n d e f r q u e n t i e l l e

    c o d a g e s u r N b i t s d e l a s o u s b a n d e ( 0 < N < = 1 6 ) d e l a t r a m e

    N b d e T r a m e = N b t o t a l T r a m e

    E c r i t u r e d a n s f i c h i e r d e s o r t i e p o u r c h a q u e I m e s o u s b a n d e d e l a P i m e T r a m e * s i g n a l c o d e s u r N i b i t s * N b d e b i t s N i .

    F i n C o d a g e

    A l l o c a t i o n b i n a i r eC ' e s t l a D f i n i t i o n d u n o m b r e d e b i t s p a r s o u s b a n d ep o u r c h a q u e I m e s o u s b a n d e d e l a P i m e t r a m eO n c h e r c h e l a r a p p o r t s i g n a l / b r u i t d e q u a n t i f i c a t i o n a d m i s s i b l ec e l a d f i n i l e n o m b r e d e b i t s N n c s s a i r e p o u r c o d e r l a I m e s o u s b a n d e

    O u i

    n o n

    Nb

    Tra

    me

    =Nb

    Tra

    me

    +1

    codeurcodeur

  • 79

    AllocationbinaireAllocationbinaire

  • 80

    Modle Psycho-acoustique deModle Psycho-acoustique de loreilleloreille

    10 1 10 2 10 3 104-20

    0

    20

    40

    60

    80

    100

    dB SPL

    kHz

    LacourbedeSeuil absolu au repos Seuil absolu au repos estliaubruitinternedeloreille.Unsignalprsentloreilledontlapuissanceacoustiquesesitueendessousdecettecourbenestpasperu

  • 81

    Modle dynamique deModle dynamique de loreilleloreille

    Ainsi la courbe de masque dynamique calcule tout les 24ms est la est le max entre les courbes de masquages des tonales et celle du modle psycho-acoustique de loreille

    101 102 10 3 104-20

    020

    40

    60

    80

    100

    dB SPL

    kHz

    Enprsencedunsonpur(TonaleTonale)onobtientune

    nouvellecourbedemasquagequimasqueleson

    faiblefaible------------

  • 82

    Modle dynamique deModle dynamique de loreilleloreilleLacourbedemasquedunetonaleestdifficilementmodlisable:

    Faireunchangementdchelledefrquencepourtenircomptedelanon-linaritdeloreille(frquenceenBarksfrquenceenBarks)

    )7500farctan(.5,3)1000

    farctan(.13f HzHzbarks +=

    100

    101

    102

    103

    104

    0

    5

    10

    15

    20

    25

    f Hz

    f b

    ark

    s

    OnobtientunecourbedeOnobtientunecourbedemasquageaffinemasquageaffine

  • 83

    Allocation binaire Allocation binaire

    D f i n i t i o n d e l a c o u r b e d e m a s q u a g e d y n a m i q u e d e l ' o r e i l l eC ' e s t l e m a x i m u m e n t r e l e c o u r b e s t a t i q u e d e l ' o r e i l l e e t l e s c o u r b e s d e m a s q u a g ed e s t o n a l e s e t n o n t o n a l e s . n e p a s o u b l i e r d e r e v e n i r e n H e r z

    R d u c t i o n d u n o m b r e d e t o n a l e s

    D f i n i t i o n d e s N o n - T o n a l e sd a n s l e s b a n d e s e n B a r k s o u i l n ' y a p a s d e t o n a l e s o n p l a c e a u m i l i e u u n e n o n t o n a l e

    P a s s a g e e n B a r k sc h a n g e m e n t d ' c h e l l e p a s s a g e d ' u n e e c h e l l e l i n a i r el e s f r q u e n c e s e n H e r t z u n e c h e l l e n o n l i n a i r el e s f r q u e n c e s e n B a r k s ( c o r r e s p o n d m i e u l a r a l i t d e l ' o r e i l l e

    D f i n i t i o n d e s T o n a l e s O n r e c h e r c h e l e s s o n s m o n o c h r o m a t i q u el a d f i n i t i o n c h a n g e e n f o n c t i o n d e l a f r q u e n c e

    C a l c u l d u s p e c t r e( o n t r a v a i l s u r 1 0 2 4 e c h a n t i l l o n s p a r m i s l e s 1 1 5 2 ) a t t e n t i o n e x p r i m e e n d B

    0

    2 0

    4 0

    6 0

  • 84

    FiltrageensousbandesFiltrageensousbandes

  • 85

    Principe & positionnement du problmePrincipe & positionnement du problme

    3

    3

    3

    H0

    H1

    H2

    H0

    H1

    H2

    3

    3

    3

    H1 H2 H3f

    Hdb

    Fe/2

    N F

    e

    N/3 Fe/3

    N/3 Fe/3

    N/3 Fe/3

    N F

    e

    Ondcoupe[0,Fe/2]par3filtresFIRPasseBandestrictementidentique

  • 86

    Filtrage passe bandeFiltrage passe bande

    f

    Hdb

    Fe/2 FeSignalchantillonnePasseBandeH1

    LargeurFe/6

    f

    Hdb

    Fe/2 Fe

    N chantillons chantillonns FN chantillons chantillonns F

    ee

    contenant la bande spectrale[Fcontenant la bande spectrale[F

    ee

    /6, 2F/6, 2F

    ee

    /6]/6]

    N chantillons chantillonns FN chantillons chantillonns F

    ee

  • 87

    DcimationDcimation

    f

    Hdb

    Fe/3 Fe2Fe/3

    On prend 1 chantillon sur 3

    Signal de dpart chantillonn Fe/3

    Pb de repliement de spectre

    Impratif : Dcoupage en N sous Bande = Dcimation par NImpratif : Dcoupage en N sous Bande = Dcimation par N

  • 88

    Rcapitulatif du codage en sous bandeRcapitulatif du codage en sous bande

    3

    3

    3

    H0

    H1

    H2

    N FN Fee

    N/3Fe/3

    N/3Fe/3

    N/3Fe/33*N F3*N F

    ee

    /3/3

    On ne change pas le nombre global dchantillonsOn ne change pas le nombre global dchantillonsOn peut maintenant coder sparment chaque sous bande :On peut maintenant coder sparment chaque sous bande : - Nombre de bits diffrent- Nombre de bits diffrent

  • 89

    Sur chantillonnageSur chantillonnageOpration inverse de la dcimationOpration inverse de la dcimation

    Fe/2f

    Hdb

    Fe2Fe/3Fe/3

    Rplication de [-Fe/2, Fe/2] autour de Fe

    Superposition parfaite

    On ne change que le gain

    Retour N signaux chantillonns FeRetour N signaux chantillonns Fe

  • 90

    Filtrage passe bandeFiltrage passe bande

    Fe/2f

    Hdb

    Fe2Fe/3Fe/3

    f

    Hdb

    Fe/2 Fe

    On passe par le mmeOn passe par le mme

    Filtre Passe Bande HFiltre Passe Bande H

    11

  • 91

    3

    3

    3

    H0

    H1

    H2

    H0

    H1

    H2

    3

    3

    3

    N F

    e

    N/3 Fe/3

    N/3 Fe/3

    N/3 Fe/3

    N F

    e

    Constructiondesfiltres(32danslecasduMP3)

    Dfinition des filtresDfinition des filtres

  • 92

    Ralisation pratique des filtresRalisation pratique des filtres

    FIRpasse-basprototypesur512Coefficients.Faireunetranslationdanschaquesousbandeparunemodulationcosinus

    H0()

    1/64-1/64

    H2()

    2 2

    PrototypePrototype ObjectifObjectif

    )(*)(H)(*)(H)(H 20202 ++=

    ))]()((21[*)(H.2)(H 2202 ++=

    TF(cos(2TF(cos(2

    22

    FF

    ee

    .t)).t))

    [ ]

    += )64

    )1k2(ncos().n(h.2)n(h 0k

  • 93

    fichierInitial:32,1Mo16bits44kHz1,5Mo/s1,5Mo/sStro

    Compression4,37Mo44kHz192kbits/s192kbits/sStro

    Compression1,45Mo44kHz64kbits/s64kbits/sMono

    Compression373ko16kHz16kbits/s16kbits/sMono

    Exemples de Compression Mp3Exemples de Compression Mp3

    1/7,31/7,3

    1/221/22

    1/881/88

  • 94

    Structure de donnes ficher MP3Structure de donnes ficher MP3

    1:synchronisation2:ID(renseignementssurlacompression)3:donnesmusicalesParfoisun4mewagon(ID3ouLyrics3)

    1 2 3

    UnfichierMP3

    Diapo 1Diapo 2Diapo 3Diapo 4Diapo 5Diapo 6Diapo 7Diapo 8Diapo 9Diapo 10Diapo 11Diapo 12Diapo 13Diapo 14Diapo 15Diapo 16Diapo 17Diapo 18Diapo 19Diapo 20Diapo 21Diapo 22Diapo 23Diapo 24Diapo 25Diapo 26Diapo 27Diapo 28Diapo 29Diapo 30Diapo 31Diapo 32Diapo 33Diapo 34Diapo 35Diapo 36Diapo 37Diapo 38Diapo 39Diapo 40Diapo 41Diapo 42Diapo 43Diapo 44Diapo 45Diapo 46Diapo 47Diapo 48Diapo 49Diapo 50Diapo 51Diapo 52Diapo 53Diapo 54Diapo 55Diapo 56Diapo 57Diapo 58Diapo 59Diapo 60Diapo 61Diapo 62Diapo 63Diapo 64Diapo 65Diapo 66Diapo 67Diapo 68Diapo 69Diapo 70Diapo 71Diapo 72Diapo 73Diapo 74Diapo 75Diapo 76Diapo 77Diapo 78Diapo 79Diapo 80Diapo 81Diapo 82Diapo 83Diapo 84Diapo 85Diapo 86Diapo 87Diapo 88Diapo 89Diapo 90Diapo 91Diapo 92Diapo 93Diapo 94