Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours...

Édition, codage et compression de l'audio et du son numérique

Par E. Akakpo et C. Brando

Cours Technologie MultimédiaCours Technologie Multimédia

La natureLa numérisation ou codageLa compression et formats d'audioLa famille MPEG/audioAutres formats audioL'édition

Nature : généralités

Le son est un phénomène physique, il se traduit par la variation de pression d'un milieu

Propriétés physiques Fréquence Célérité Amplitude et longueur d'onde

Fréquence: Nombre d’oscillations du signal sonore par secondes

Chez l'homme elle est de 20Hz à 20KHz

Les sons sont classés de la façon suivante:

Basses 20Hz à 300Hz

Médiums 300Hz à 1600Hz

Aigües 1600Hz à 20KHz

Nature : généralités (2)Propriétés physiques: Fréquence et célérité

Célérité: Il s'agit de la vitesse de l'onde sonore

L’Amplitude : Elle se mesure en décibels (dB).

On définit à: 0 dB, le seuil d’audibilité de

l’oreille Humaine. 120 dB, le seuil de douleur.

La longueur d’onde:Distance parcourue par l’onde en un cycle complet.

Elle se calcule en fonction du rapport : l = v/f .

Nature : généralités (3)Propriétés physiques: Amplitude et

longueur d'onde

Numérisation ou codage

Elle permet de transformer un signal sonore en fichier enregistré sur support numérique

Les données sonores sont numérisées en passant par: L'échantillonnage La quantification

Numérisation ou codage (2)L'échantillonnage

Il s’agit de la discrétisation du signal sonore analogique (continu).

Il se définit par sa fréquence, qui se calcule grâce au théorème de Nyquist-Shannon.

Numérisation ou codage (3)La quantification

C ’est le nombre de valeurs utilisées pour représenter l’information sous forme numérique. On parle aussi de résolution.

Elle est essentielle pour la qualité du son Si on utilise 16 valeurs, chaque échantillon

est codée sur 4 bits (24= 16)

Numérisation ou codage (4):Poids d'un fichier

K : taille du fichier en Kilo-octets F : fréquence d'échantillonnage en KHz Q : nombre d'octets utilisés pour coder le signal (16 bits = 2 octets) P : nombre total de pistes mono T : temps de l'enregistrement en secondes

K = P * F * Q * T

Bitrate : débit binaire d’un fichier. D (kb/s)= fe . nbCanaux . nbBitsQuantif

1024 Plus il est élevé, plus la qualité est bonne. Il porte une information importante dans le

domaine de l’internet:Ex : Pour lire un fichier son sur un site web par exemple il

faut que le débit connexion modem soit supérieure au bitrate.

Numérisation ou codage (5)

Numérisation ou codage (6):Pulse code modulation

Les principes de numérisation sont mentionnés sous la cadre de PCM (Pulse code Modulation)

C'est le format standard des sons numériques non compressés dans les ordinateurs : .AIF (Machintosh) .WAV (Windows)

Numérisation ou codage (7):Le wave

Format flexible pour garder plus ou moins tous les combinaisons d'échantillons

Il décode tous les sons, soit du son complexe ou du silence

Il se compose d'un en-tête de fichier, suivi des données.

Structure des fichiers WAVE simples.– Entête :

– Bloc Format :

« RIFF » taille_fichier «WAVE

« fmt »Taille du bloc

Format Information Nombres de canauxFréquence d’échantillonnage (Hz)

Débit_BinaireBlock Alignment Nb de bits de quantification

Bloc Données :

« data »Taille du bloc

Données

Un exemple : CD-Audio fe = 44,1 KHz son stéréo 2 canaux résolution de 16 bits: bitrate : 1376 kbps et

connexion modem RTC : 56 kbps Il y a plusieurs pour comprimer sans

sacrifiquer forcement la qualité: Algorithmes non destructifs Algorithmes destructifs

Compression

Compression (2)

Algorithmes destructif : lossy compression algorithmes

Retirer systématiquement des échantillons Principe de phycoacoustique : supprimer le

son que l'auditeur ne peut pas percevoir et de bruits

Compression (3)

Fréquences audibles pour l'homme, de 20Hz à 20KHz, diminution raisonnable de la bande passante

L'effet masque: dans un groupe de frequences voisine ou identiques, on supprime lesquels avec beaucoup amplitude

Stéréo jointe: on enregistre la partie grave du spectre en monophonique. On fait 50% relativement à un enregistrement stéréomonophique

Moving Picture Expert Group : définit les standards de compression pour la vidéo et l’audio

Norme : ISO/IEC JTC1 SC29 WG11 Spécifications de 3 couches, appelés layers : du

niveau 1 au niveau 3, les algorithmes d’encodage sont de plus en plus complexes (Note : MP3 = MPEG-1 layer 3).

Point commun : l’utilisation conjointe d’un modèle psychoacoustique et d’une représentation fréquentielle du signal.

Famille MPEG

Famille MPEG (2)

10:1 … 12:1 pour 128 … 112 Kbps en stéréoconçu au départ pour un

bitrate très bas (ex : MP3)Layer 3

6:1 … 8:1 pour 256 … 196 Kbps en stéréo

compromis entre complexité et performance

Layer 2

4:1 pour 384 Kbps en stéréodestiné à la DCC (Digital Compact Cassette)

Layer 1

Taux de compression avec une qualité proche de celle du CD

• Figure : vue globale du codec MPEG/audio.

Codec MPEG/audio

Représentation fréquentielle

• Pourquoi une représentation fréquentielle? Avantage :

Une vision qualitative du signal. Inconvénient :

Le temps de calcul. Comment?

Le signal numérique temporel est découpé en segments de 26 ms (« frames »). On stocke le spectre fréquentiel de chaque frame.

Représentation fréquentielle (2)

Modèle phycoacoustique

• Pourquoi un modèle psychoacoustique? Constat : l’audition humaine est limitée:

Dans le domaine fréquentiel (20 Hz-20KHz). Par son seuil de sensibilité (intensité sonore). Par l’attention que le cerveau lui accorde.

Conséquence : des effets de masquage et des échantillons inaudibles, donc superflus!

Idée : pouvoir identifier les échantillons inaudibles afin de les supprimer.

Modèle phycoacoustique (2)

• Figure : l’être humain perçoit bien les fréquences proches de celle de la Voix, moins bien les autres!

• De plus :- Un son trop faible n’est

pas perceptible par l’oreille d’un humain, même attentif (courbe du bas).

- Au-delà d’une certaine intensité, le son n’est plus qu’une douleur (courbe du haut).

oratio

Modèle phycoacoustique (3)

Modèle psychoacoustique (4)

• Figure : effet de masquage fréquentiel• L’oreille ne peut pas

distinguer un son faible si sa fréquence est trop proche d’un son plus fort.

• Attention, cette figure ne montre pas que la résolution en fréquence de l’oreille n’est pas la même pour toutes les fréquences !

Modèle psychoacoustique (5)

• Effet de masquage temporel Constat : les humains ont du mal à entendre un

son de faible intensité s’il devance (ou suit) de très près (5 ms environ) un son de forte intensité.

Idée : éliminer les échantillons proches temporellement d’un son plus fort qu’eux.

Remarque : n’est utilisé que dans « Layer 3 ».

L’allocation des octets

L’allocation des octets (2)

• Hypothèse : le débit binaire (« bitrate ») est supposé constant (vrai en mode CBR).

• Rappel : une frame a une durée fixe de 26 ms.• Déduction : le nombre de bits disponibles pour

coder les échantillons dans chaque frame est limité. Il faut les quantifier.

• Problème : la quantification va ajouter du bruit au signal (une erreur d’1 bit dans l’arrondi équivaut à ajouter 6 dB de bruit). Comment limiter ce bruit?

L’allocation des octets (3)

• Première partie de la solution : Calculer le rapport masque/bruit de chaque

sous-bande. Allouer juste ce qu’il faut de bits à chaque

sous-bande pour que le bruit engendré par la quantification de ses échantillons soit masqué par les sous-bandes voisines.

Si cela ne suffit pas : On sacrifie les fréquences les moins audibles.

Certaines frames peuvent être tellement riches (musicalement parlant) que les masques ne permettent pas d’éliminer de sous-bandes. Si le bitrate imposé est faible, on ne peut pas quantifier convenablement les intensités des sous-bandes sans introduire beaucoup de bruit dans le signal.

Une solution : utilisation d’espaces laissés « libres » dans d’autres frames.

Ce « réservoir d’octets » permet à l’encodeur de récupérer les espaces « libres » dans les frames précédentes pour y insérer les bits de la frame en cours.

Si on ne peut pas trouver ce réservoir, alors les données sont simplement perdues perte de qualité du signal.

La meilleure solution : utiliser un bitrate plus grand.

Le réservoir d'octets (Layer 3)

Encodage final

Le MP3 utilise la technique classique de l’algorithme d’Huffman ; Pas de perte d’information pendant cette étape. Permet de compresser jusqu’à 50%.

Vient en complément de l’encodage perceptif.

Le codage de Huffman (Layer 3)

Le décodage

Le décodage (2)

Opération moins complexe Inverse du codage. Mais pas d’analyse psychoacoustique.

Donc plus rapide :

LE MP3

Qu’est-ce que c’est?

MPEG-1/2 Audio Layer 3 Algorithme de compression audio réduisant

drastiquement la quantité de données nécessaires pour restituer l’audio

Dérivé du layer 2 par ajouts de nouveaux outils technologiques, de même qualité que lui mais à 128Kbps

Compression approximative de 1:4 à 1:12

Techniques de codage

Système de compression partiellement destructif

Tres forte réduction de la qualité Exploitation d’un modèle psycho-acoustique

de l’effet de masque Toutefois amélioration possible de la qualité

par utilisation d’un VBR ( paramètres du CD utilisés comme références)

L’entête d’une frame

2Emphasis (respects emphasis bit in the original recording; now largely obsolete)

1Original (off if copy of original, on if original)

1Copyright (on or off)

2Mode extension (used only with joint stereo, to conjoin channel data)

2Channel mode (stereo, joint stereo, dual channel, single channel)

1Private bit (on or off, allows for application-specific triggers)

1Padding bit (on or off, compensates for unfilled frames)

2Sampling rate frequency (44.1kHz, etc., determined by lookup table)

4Bitrate index (lookup table used to specify bitrate for this MPEG version and layer)

1Protection (if on, then checksum follows header)

2MPEG layer (Layer I, II, III, etc.)

2MPEG audio version (MPEG-1, 2, etc.)

11Frame sync

Length (in bits)

Purpose

Option 1 : la « joint » stéréo

1er constat : L’oreille humaine localise mal la provenance

spatiale des sons graves. Idée :

Couper le spectre en hautes et basses fréquences.

Coder les hautes fréquences en stéréo, les basses en mono.

Option 1 : la « joint » stéréo (2)

2eme Constat : le signal à droite et le signal à gauche peuvent

être proches Idée :

création d’un canal de milieu (L+R), et un canal de coté (L-R)

on parle de M/S (middle/side) stéréo Stéréo d’origine sera restaurée par le décodeur

Option 2 : Le CBR/VBR

CBR = Constant Bitrate : débit binaire constant (option par défaut).

VBR = Variable Bitrate : débit binaire variable. le bitrate varie alors dynamiquement en fonction de la

complexité du signal sur une « frame », afin de garantir toujours une qualité sonore optimale.

passage complexe augmentation du bitrate, et inversement.

Option 2 : Le CBR/VBR (2)

A qualité équivalente, les fichiers encodés en VBR sont plus petits.

Inconvénients : Pas lisibles par les décodeurs les plus anciens. Problème de « timing » lors du décodage (fonction

« seek » imprécise).

Les résultats(1)

Une minute d’un CD-audio (à une fréquence de 44.1 KHz, 16 bits, stéréo) ne prendra qu’un seul Mo en MP3.

Une chanson fait donc en moyenne 3 ou 4 Mo, ce qui rend son téléchargement possible par modem.

La décompression d’un fichier MP3 (i.e. la lecture) se fait en temps réel avec un P166,

Mais nécessite une grande partie des ressources système.

Les résultats (2)

Le format ne contient pas seulement les musiques mais aussi les metadata

Présence d’étiquettes enregistrées au format ID3

Évolutions : le mp3Pro

Autres formats de compression

MPEG-4 audio : 2x plus performant que MP3 bitrate de 64 kbps qualité proche du CD peut descendre jusqu’à 2kbps gère 5 canaux séparés son 3D, etc.

WMA (Windows Media Audio) : proche du MP3 (de 8 kbps à 128 kbps) mais format fermé taille : 1/3 d ’un fichier MP3 à bitrate égal encodage plus rapide

Autres formats de compression (2)

WMA (2)

-possibilité de protéger les fichiers de sortie dès l’encodage

-existe sous 4 formats:

*WMA standard

*WMA pro

*WMA lossless

*WMA voice

Ogg Vorbis : - Ogg + Vorbis

Licence GPL (ou encore LGPL) même catégorie que MPEG-1 layer 3(mais plus perfomant et pas

compatible), MPEG-4, … aucune protection

VQF (Vector Quantization Format) : Yamaha Wave 50 Mo 3.5 Mo à 96 kbps et 44,1 KHz 20 à 35 % plus léger que MP3 à bitrate égal encodage lent devrait être intégré au MPEG-4

- compression 2fois plus qu’un MP3

- Musique haute qualité sur le web

- Peut inclure jusqu’à 48 canaux

- LC-AAC , AAC+ (HE-AAC) …

- Format supporté dans l’iPod et l’iTunes

Comparaison

3 grandes catégories de format audio:

- les formats bruts : offrant les meilleurs qualités

- les formats compressés : offrant les meilleurs débits pénalisant plus ou

moins la qualité;

* différences des formats au sein même de ce format dues aux techniques utilisées et

- les formats de flux

Du côté de la Loi

Légal : l’utilisation d’un codec MP3.

Illégal : l’encodage et l’échange de fichiers MP3 sans

l’accord de l’artiste et versement de droits d’auteurs.

Autres formats Audio

Autres formats audio

• Les formats musicaux– Le MIDI– Les fichiers « Tracker »– Le multi-pistes

• Le Streaming

Le MIDI

• Introduction– MIDI = Musical Instrument Digital Interface– A la fois une interface physique et une norme– Avantage : taille des fichiers (~ 30ko)

Le MIDI (2)

• Description de l ’interface– Permet d ’établir une communication entre le langage du

musicien et celui des microprocesseurs– Tentative de reproduction des gestes du musicien

• ex : appui sur une touche de clavier Code machine– Fichier = description des actions

• ex : hauteur de la note, durée, …• Synthétiseur obligatoire• Explication de la taille réduite

Le MIDI (3)

• Définition matérielle– Interface série asynchrone à 31250 bauds– Connections DIN 5 broches

• MIDI IN• MIDI OUT• MIDI THRU

– Pour éviter les délais, longueur des câbles < 15m.– Branchement sur prise Joystick de la carte son

Le MIDI (4)

• Le protocole de communication– Les messages canaux

• 16 canaux (norme Roland)– Les messages systèmes

• Exclusifs (particuliers à chaque machines MIDI)• Communs (ex: se positionner à un endroit d ’un morceau)• Temps réel (ex: synchronisation des machines)

Le MIDI (5)

• Le standard GM (General MIDI)

Mapping Instruments

0=Acoustic Grand Piano1=Bright Acoustic Piano2=Electric Grand Piano3=Honky-tonk Piano4=Rhodes Piano5=Chorused Piano6=Harpsichord7=Clavinet ……………

120=Guitar Fret Noise121=Breath Noise122=Seashore123=Bird Tweet124=Telephone Ring125=Helicopter126=Applause127=Gunshot

Mapping Drums sur Canal 10

35=Acoustic Bass Drum36=Bass Drum 137=Side Kick38=Acoustic Snare39=Hand Clap40=Electric Snare

………………...

76=High Wood Block77=Low Wood Block78=Mute Cuica79=Open Cuica80=Mute Triangle81=Open Triangle

Le MIDI (6)

Le format « Tracker »

• Introduction– Taille de fichier ~500Ko pour 3 min– Principe du sampling– Analogie avec le MIDI– Problème : pas normalisé

• Quelques logiciels– FastTracker, Impulse Tracker, MadTracker ...

Le format « Tracker » (2)

Entre le MIDI et le Tracker : la norme Beatnik!!

L’édition Audionumérique.

Les fonctions de Base. L’équalisation. Les effets.

L’édition Audionumérique.

Le son Numérique ne peut pas être amélioré. La fréquence d’échantillonnage, le nombre de bits de quantification définissent sa qualité.

Cette dernière ne peut ensuite que diminuer suite aux manipulations que l’on réalise sur les fichiers (compression, conversion à d’autres formats, ...).

On peut cependant y appliquer diverses fonctions permettant de manipuler les fichiers sons.

L’édition Audionumérique:Les fonctions de base.

Les fonctions appliquées sur les fichiers sons sont réalisées par des processeurs DSP ( Digital Signal Processor ).

On trouve parmi les fonctions de base : La normalisation le changement de durée La conversion stéréo/mono et mono/stéréo reverse, etc...

L’édition Audionumérique:L’équalisation.

Elle est nécessaire, parce que la perception des sons varie en fonction des goûts et des humeurs de chacun.

Elle permet de renforcer ou d’atténuer certaines fréquences en ajoutant ou en enlevant quelques décibels.

L’édition Audionumérique:Les effets.

On désigne par effets tous les dispositifs de traitement du son.

Dans les grandes familles, on trouve :

- La réverbération- Le délai- Le chorus- Le Trémolo

- Le vocoder- Le noise gate- Le flanger- le phasing

L’édition Audionumérique:Démonstration

Conclusion

Bibliographie

[1] C. Grégoire, M. Guionneau, O. Le Blouch, Y. Yerro. Rapport par le cours Technologie Multimédia: L'audio. Novembre 2002.

[2] I. Roxin, D. Mercier. Multimédia: Les fondamentaux, introduction à la représentation numérique. Vuibert, Paris, 2004.

[3] J. Terrason. Les outils du multimédia. Armand Colin Éditeur. Paris, 1992.

Bibliographie (2)

[4] La norme MIDI : http://daffyduke.lautre.net/zik/midi_index.html

http://www.mp3-converter.com/mp3codec

[5] Article : «A tutorial on MPEG/audio compression», par Davis Pan

Première publication dans IEEE Multimedia Journal, numéro d’été 1995.

[6] Article : «Digital Audio Compression», par Davis Yen Pan

Première publication dans Digital Technical Journal, Vol. 5 No. 2, été 1993.

Bibliographie (3)

[7] Wikipédia : Digital Audio. http://en.wikipedia.org/wiki/Digital_audio. Dernière modification: le 17 septembre 2008.

[8] Wikipédia : Audio Compression (Data). http://en.wikipedia.org/wiki/Audio_compression_(data). Dernière modification : le 24 septembre 2008.

[9] La compression numérique du son. http://mao.audiofanzine.com/apprendre/dossiers/print_dossier,idossier,31.html. Dernière modification : le 18 octobre 2002.

[10] Wikipédia: Audio File Format. http://en.wikipedia.org/wiki/Audio_file_format. Dernière modification : le 11 septembre 2008.

[11] Le Son Numérique. http://www.commentcamarche.net/contents/audio/son.php3.

Bibliographie (4)

[12] Wikipédia : WaveForm audio format. http://fr.wikipedia.org/wiki/WAVEform_audio_format. Dernière modification : le 22 octobre 2008.

[13] Wikipédia : Audacity. http://fr.wikipedia.org/wiki/Audacity. Dernière modification : le 25 septembre 2008.

[14] Logiciel Audacity. http://audacity.sourceforge.net/.

Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours...

Documents

Transcript of Édition, codage et compression de l'audio et du son numérique Par E. Akakpo et C. Brando Cours...

L'audio n'a pas dit son dernier mot

Petite histoire de la protection juridique des mesures ...eucd.info/documents/petite-histoire.pdf · mesures techniques et des informations électroniques De l'Audio Home Recording

centre - CORE · * * * SVP partager I'URL du document plutôt que de transmettre le PDF ... La rareté de vrais maîtres ... les spécialistes du livre et ceux de l'audio-visuel ...

Envoyée spéciale TAHITI Marlon Brando dans l’île de · qui y mènent des études pionnières sur les écosystèmes et la biodiversité. Un séjour voluptueux et luxueux entre

Anatomie des muscles de la ceinture scapulaire: …cesabplille2016.hautetfort.com/media/02/02/2588865488.pdf · Anatomie - ceinture scapulaire. Jeannot AKAKPO CESA - AGFF 2016 1 CESA

Serban Nichifor - Free-scores.com · Style : Jazz Serban Nichifor sur free- sc or es .com écouter l'audio partager votre interprétation ... for Jazz Ensemble Score in C Andante

LES METHODES DU VOLUME HYPERTROPHIE …emspbp2013.hautetfort.com/media/02/01/1917359746.pdf · jeannot akakpo - cesa/emsp jeannot akakpo - cesa/emsp 1 jeannot akakpo - cesa/emsp.

A Petites Pierres - KOKOLAMPOE · 2020. 7. 8. · A Petites Pierres Une comédie de Gustave Akakpo Mise en scène Ewlyne Guillaume Création 2015 ... le prix junior Plumes Togolaises

Martial Akakpo et Associés - barreaucameroun.orgSecure Site barreaucameroun.org/site/wp-content/uploads/2019/10/ARBITRAGE... · Martial Akakpo et Associés Société d’Avocats

La révision des listes électorales a démarré dans la zone 1€¦ · Martial AKAKPO L’OTR échange avec les importateurs sur la réforme La révision des listes électorales

Les réfugiés rwandais appelés au respect de la législation ... · taire mondial, Kofﬁ Akakpo, et des autorités départementales. « Je suis heureux d’être ici avec vous

Anatomie des muscles de la ceinture scapulaire: insertions ...cesabplille2017.hautetfort.com/media/02/00/2804865632.pdf · Anatomie - centure scapulaire. Jeannot AKAKPO CESA - AGFF

Dans le monde de l'audio pro, les microphones et les ... · AKG signe son millième brevet au cours de l’année ... Sinatra, Eric Clapton, Peter Gabriel, Stevie Wonder, Aerosmith,

Travailler avec l'audio numérique - Canoprof · puissent travailler en dehors de la classe, ou dans la classe, individuellement. Un document entièrement consacré à la mise en

OSTÉOLOGIE ANATOMIE DU SQUELETTE - …cesaemspbp2015.hautetfort.com/media/01/00/4017232007.pdf · OSTÉOLOGIE ANATOMIE DU SQUELETTE jeannot AKAKPO Jeannot AKAKPO Le squelette jeannot

Dr Achille NGWANZA Associé JUS AFRICA CCIDr Martial AKAKPO, Avocat au Barreau du Togo, Associé MARTIAL AKAKPO Law Firm, Membre de la Cour internationale d’arbitrage de la CCI L’intervention

Manuel d'utilisation et d'installation Blackmagic Web ... · Mise en route Brancher l'audio Les entrées SDI et HDMI intègrent l'audio, toutefois, le Blackmagic Web Presenter est

Carmen Brando hétérogènes pour les SHS · Traitement et analyse des corpus hétérogènes pour les SHS Carmen Brando PhD en informatique Géomatique & Traitement automatique des

Victorin Vidjannagni GBENOU...(Congo) AKAKPO Yaovi, Professeur Titulaire, Histoire et philosophie des sciences, UL (Togo) BADINI Amadé, Professeur Titulaire, Philosophie de l’éducation,

Daniel SARCARSMES Pensées à 4 sous.. Sur une musique de Ellis et Brando Marsalis...