Le traitement numérique du signal audio - … · Le traitement numérique du signal audio...

jean-philippe muller

version juillet 2001

Le traitement numérique du signal audio



2

Sommaire page I) Les sons et leur perception :

• les performances de l’oreille 3 • analyse spectrale et timbre d’un son 6 • le mécanisme de l’audition 9 • les phénomènes de masquage 10

II) L’intérêt de la numérisation du son :

• pallier les défauts du support 12 • maîtriser la dégradation du signal 14 • permettre des traitements particuliers 15

III) Acquisition d’un signal analogique :

• échantillonnage 17 • spectre du signal échantillonné 18 • règle de Shannon 20 • filtre anti-repliement 21 • le bloqueur 22 • quantification 23

IV) Restitution d’un signal analogique :

• par bloqueur 27 • par filtre compensateur de sinus cardinal 29 • par suréchantillonnage 30

V) Les systèmes audionumériques actuels :

• le compromis capacité de stockage - débit numérique 32 • l’enregistreur DAT 32 • le disque compact 35 • le mini disc 42



3 I) Les sons et leur perception : 1) Les performances de l’oreille : On appelle son tout message naturel ou provoqué perçu par l’intermédiaire du sens de l’ouïe. Physiquement, le son s’analyse comme une variation de pression au voisinage de l’oreille, cette onde de pression se propageant de sa source jusqu'à l’oreille avec une célérité de c=340m/s environ. Un son est caractérisé par :

• son niveau ou intensité • sa hauteur liée à la fréquence de son fondamental • son timbre lié à sa composition spectrale

L’intensité d’un son se mesure en Watts/m2. Le son le plus faible que l’oreille puisse entendre a une intensité Io de : Io = 10-12 W/m2 pour un signal de fréquence 1 kHz Les sons les plus intenses que l’oreille puisse supporter ont une énergie de 100 W/m2. La gamme d’intensité s’étend donc sur 14 décades, ce qui est considérable. C’est pour cela qu’on utilise souvent une échelle logarithmique pour exprimer l’intensité d’un son en dB par rapport au niveau de référence Io précédent : I en dB = 10log( I/Io ) Voici quelques exemples de niveaux sonores :

0 dB

seuil d’audition bourdonnement de moustique à 2 m

20 dB

intérieur d’un studio d’enregistrement

40 dB

conversation normale

60 dB

conversation vive

80 dB

rue bruyante

100 dB

marteau piqueur à 2 m

120 dB

réacteur d’avion à 10 m

130 à 140 dB

seuil de douleur

Une oreille jeune est capable d’entendre des sons dans une gamme de fréquence très vaste qui va de 20 Hz à 20 kHz, soit 10 octaves ou 3 décades.



4 Le niveau minimal de sensibilité ( seuil d’audition ) et le niveau maximal ( seuil de douleur ) ne sont pas constants sur toute la gamme de fréquences. Le diagramme suivant montre la répartition en niveau et en fréquence des sons audibles :

Les courbes de Fletcher montrent que l’impression de niveau sonore change avec la fréquence du signal écouté :

Cette variation de sensibilité en fonction de la fréquence explique les faits suivants : • le piccolo ou le triangle émergent facilement de l’orchestre • on entend beaucoup mieux un petit sifflet à 4 kHz qu’un gros tuyau d’orgue à 30 Hz • les cordes graves d’un instrument émettent plus de puissance que les aiguës, mais la sensation

d’intensité est la même

Figure 1. L’étendue des sons audibles

Figure 2 Les courbes de Fletcher



5 A l’intérieur du champ d’audition, on définit : • la sensibilité différentielle d’intensité liée à la variation minimale d’intensité que peut déceler

l’oreille

On constate que dans la partie centrale du champ cette sensibilité différentielle est constante et vaut environ 10%. Cela veut dire que l’oreille peut distinguer une variation d’intensité qui passe de :

la valeur I1 à I2 = 0,9.I1 soit en dB : 10 log(I2/I1) = -0,5 dB De ce chiffre découle directement un critère de qualité d’une chaîne de reproduction sonore pour laquelle les variations de la courbe de réponse devront être inférieures à ± 0,5 dB. • la sensibilité différentielle de hauteur liée à la variation minimale de fréquence que peut déceler

l’oreille

Dans la partie centrale du champ d’audition, cette sensibilité vaut 0,3 % ce qui veut dire que l’oreille peut déceler une variation de hauteur entre deux sons dont l’un est à f1 = 1000 Hz et l’autre à f2 = 1003 Hz. Cette bonne sensibilité de l’oreille aux variations de hauteur a compliqué la tâche des concepteurs de magnétophones au niveau du taux de pleurage qui devra évidemment rester en-dessous de la sensibilité de l’oreille.

Figure 3. Sensibilité différentielle de l’oreille.

Figure 4. Sensibilité différentielle de hauteur.



6 2) Analyse spectrale et timbre d’un son : Le signal le plus simple du point de vue contenu fréquentiel est un signal sinusoïdal comme : x(t) = Esin(ωt) car il ne contient qu’une seule fréquence f = ω/2π Un signal parlé ou musical est plus complexe puisque son allure varie au cours du temps. Il contient des fréquences graves, moyennes et aiguës. On dit que son spectre s’étend de 20 Hz à 20 kHz et varie en permanence entre ces deux limites. Le spectre d’un signal est la représentation en fonction de la fréquence des amplitudes des différentes composantes présentes dans ce signal. Voici quelques exemples de spectres simples tracés sans aucun calcul : • signal sinusoïdal x(t) = 10sin(40t) Remarque : lorsqu’on trace un spectre on ne s’intéresse sauf exception qu’à l’amplitude de la composante et pas à sa phase • signal composite x(t) = 3cos(15t) + 10sin(40t) + 6cos(60t + ππππ/2)

Il est clair que ces signaux trop simples sont rarement intéressants. Les signaux utiles à analyser sont ceux qui contiennent une information comme les signaux audio, vidéo, etc ... et dont le spectre est plus riche. Suivant le type de signaux, nous disposons d’outils mathématiques et d’appareils analyseurs de spectre qui nous permettent d’avoir accès à la représentation spectrale du signal.

amplitude

pulsation

40

10

amplitude

pulsation 15 40 60

10 6 3

Figure 5. Spectre d’un signal sinusoidal.

Figure 6 Spectre d’une somme de sinusoïdes.



7 Pour les signaux périodiques, nous avons à notre disposition la décomposition en série de Fourier ( voir Annexes A1, A2 et A3 ) qui nous permet de calculer mathématiquement le spectre de cette catégorie de signaux. Un signal périodique de fréquence f a un spectre formé de raies aux fréquences :

• f c’est le fondamental • 2f ------- l’harmonique 2 • 3f ------- l’harmonique 3 etc ...

Voici le spectre d’un signal triangulaire à 300 Hz relevé avec un analyseur : On note la présence des harmoniques impairs qui décroissent si la fréquence augmente. Pour un signal audiofréquence, le calcul mathématique strict n’est plus possible puisqu’on ne dispose pas de l’équation mathématique du signal en fonction du temps. Pour accéder au spectre il faut alors disposer d’un analyseur de spectre ( batterie de filtres décalés ou analyseur à transformée de Fourier discrète ). Voici l’oscillogramme et le spectre d’une tranche de musique du groupe Dire Straits de durée 10 ms :

X(t)

t

T

300 Hz

Echelle y fenêtre Fmax

Position du marqueur Niveau du fondamental

10 dBEr

-10

-20

Figure 7. Spectre d’un signal triangulaire.

Figure 8. Spectre d’un signal musical.



8 La répartition et les amplitudes des harmoniques ont une importance fondamentale en musique puisque c’est cela qui définit le timbre d’un instrument . Le son d’un violon est différent de celui de la trompette et de l’orgue parce que les spectres de ces 3 instruments ont une composition en harmoniques différente.

D’autre part, pendant la durée d’une note, l’allure temporelle et la composition harmonique ne restent pas identiques. C’est cela qui rend la musique si vivante et si riche. Cette « vie » des harmoniques est bien mise en évidence sur les enregistrements suivants où on voit l’évolution du spectre en fonction du temps, l’amplitude de la raie se traduisant par l’épaisseur du trait :

On peut noter : • le bruit d’attaque pour le violon et

le piano • le bruit de souffle pour la flûte • l’importance des harmoniques

impairs pour la clarinette, liée au son nasillard

• la durée de vie et l’amplitude

variables des différents harmoniques

Figure 9. Oscillogrammes et spectres du son : ! de violon ! de trompette ! d’orgue

Figure 10. Sonagrammes d’instruments de musique.



9 Dans le même ordre d’idée, voici l’évolution d’un son de piano :

3) Le mécanisme de l’audition : Le système auditif humain est constitué d’un capteur ( l’oreille ) relié électriquement par un faisceau de nerfs à un centre de traitement de l’information ( le cerveau ).

Les sons sont captés par le pavillon et font vibrer le tympan. Cette vibration est transmise par les osselets à la fenêtre ovale. Les 3 osselets ( marteau, enclume et étrier ) sont des merveilles de mécanique puisqu’ils transmettent les vibrations de faible amplitude avec une bonne efficacité, alors que les vibrations intenses correspondant à des sons forts font bouger les osselets latéralement , ce qui diminue l’efficacité de la transmission.

t1 t2 > t1 t3 > t2 t4 > t3

Spectre

Oscillogramme

Figure 11. Evolution du son d’un piano au cours du temps.

Figure 12. Structure de l’oreille.



10 Les osselets jouent donc le rôle important de contrôle de volume permettant d’éviter la dégradation de l’organe sensible si le son est trop fort. Les vibrations transmises à la fenêtre ovale se propagent ensuite dans le limaçon à une distance qui dépend de la fréquence et excitent les cellules de Corti qui envoient au cerveau des impulsions (jusqu'à 1000 par seconde ) dont le nombre dépend de l’intensité du son. On voit que le limaçon effectue une analyse spectrale du son, ce qui explique que les modèles psychoacoustiques conduisant à des techniques de compression de débit numérique devront obligatoirement passer par une transformation dans le domaine des fréquences. Le système auditif peut donc être schématisé par le diagramme suivant : Le contrôle de volume peut-être volontaire :

• quand on tend l’oreille, on se met à la sensibilité maximale • quand on s’attend à un bruit fort, on se met à la sensibilité minimale

ou réflexe :

• si le niveau sonore augmente, l’oreille diminue automatiquement sa sensibilité • si le niveau sonore est faible, la sensibilité de l’oreille augmente

En conséquence, la sensation sonore n’est pas du tout proportionnelle à l’intensité du son à cause de ce phénomène de contrôle automatique de gain, mais à peu près proportionnelle au logarithme de l’intensité. L’oreille a d’énormes qualités au niveau de la sensibilité et de la dynamique, mais n’est pas un bon indicateur de niveau sonore. 4) Les phénomènes de masquage : Nous avons vu que le fonctionnement mécanique de l’oreille est modifié par l’intensité du son qui arrive sur le tympan. On comprend donc que la perception d’un son de faible intensité soit modifiée par la présence ou l’absence d’un autre son plus intense . Un son intense pourra même empêcher la perception de sons de faible intensité : c’est le phénomène de masquage qui se manifeste :

• dans une plage de fréquence autour du son intense ( masquage fréquentiel ) • pendant la durée du son intense et même un peu plus ( masquage temporel )

tympan

Osselets CAG

limaçon

Cellules de Corti

cerveau

réflexe

volontaire

Nerf

Figure 13. Diagramme fonctionnel de l’oreille.



11 Ce phénomène de masquage est tellement courant qu’on n’y prête plus guère attention . Par exemple, le passage d’une voiture nous empêche momentanément d’entendre le gazouillis des oiseaux. Les courbes suivantes montrent comment un signal A perçu lorsqu’il est seul puisque d’un niveau supérieur au seuil d’audition devient inaudible parce que masqué par un signal B plus intense.

On voit bien que la courbe de seuil d’audition est fortement modifiée par la présence du son B. Du fait de l’inertie mécanique des osselets, ce masquage se prolonge quelques dizaines de millisecondes après la suppression du signal B : un son intense masque les sons plus faibles le suivant ou le précédent immédiatement.

Figure 14. Mise en évidence de l’effet de masquage.

Figure 15. Le masquage dans le temps.



12 II) L’intérêt de la numérisation du son : 1) Pallier les défauts du support : La difficulté de stocker un signal musical trouve son origine dans l’extraordinaire gamme de niveaux (14 décades ) et la plage de fréquences ( 3 décades ) qu’il faut reproduire. Cette dynamique de 14 décades ne peut pas être reproduite actuellement, mais on estime que 10 décades, soit une plage de 100 dB, est tout à fait satisfaisante même pour les mélomanes les plus exigeants. Il ne faut pas perdre de vue que pour produire un son d’intensité I = 120 dB correspondant à un piano jouant à fortissimo avec des enceintes de rendement élevé de 95 dB/W il faudra leur fournir une puissance électrique P = 300 W efficaces, ce qui montre que le problème de la dynamique ne se rencontre pas seulement au niveau du support d’enregistrement. Prenons l’exemple de l’enregistrement magnétique analogique d’un signal musical pour lequel le signal est inscrit sous forme d’état magnétique de l’oxyde de fer ou de chrome couché sur la bande. Du fait de la structure granulaire de l’oxyde, le défilement de la bande produit dans la tête de lecture un bruit de fond à répartition spectrale quasi uniforme. Ce bruit de fond définit un seuil en-dessous duquel le signal enregistré n’est plus exploitable. Pour les forts niveaux, les non-linéarités et les saturations définissent le niveau maximal admissible pour un taux de distorsion donné. L’écart entre ces deux limites définit la dynamique du système de l’ordre de 40 dB . Pour produire des systèmes d’enregistrement plus performants, on a du développer des techniques analogiques destinées à réduire le bruit de fond de la bande et donc à améliorer la dynamique. C’est toute la famille des réducteurs de bruit développés par les laboratoires Dolby qui compriment la dynamique avant l’enregistrement et appliquent une expansion de dynamique à la lecture :

Grâce à ces circuits, la dynamique des enregistreurs analogiques actuels de très bonne qualité atteint les 70 dB.

Figure 16. Action du circuit de compression et d’expansion de dynamique.



13 En ce qui concerne la bande passante, de nombreux facteurs interviennent pour perturber la courbe de réponse : • du coté des basses-fréquences, on retrouve la difficulté très générale de transmettre des signaux

lentement variables auxquels se superposent des dérives inévitables ainsi que la limitation due au principe de lecture basé sur la variation de flux

• du coté des fréquences élevées, nous trouvons les limitations dues à l’inertie des systèmes

mécaniques, à la constante de temps des circuits électriques, ainsi qu’à la largeur de l’entrefer.

Grâce à une électronique analogique très soignée, on arrive à obtenir une courbe de réponse a peu près linéaire dans la gamme de fréquences allant de 30 Hz à 10 kHz :

Dans le cas d’un enregistrement numérique, le signal à inscrire sur la bande est un signal binaire. Celui-ci sera également affecté et donc déformé à cause des limitations de la bande passante et des défauts du système. Mais aussi longtemps que cette déformation reste raisonnable, on pourra reconstituer le signal initial à l’aide d’un dispositif de remise en forme du signal à la lecture. La distorsion introduite par les limitations du support pourra donc être supprimée. C’est une différence importante avec l’enregistrement analogique dans lequel la dégradation est irréversible et augmente à chaque nouvel enregistrement.

Figure 17. Irrégularité de la courbe d’enregistrement magnétique.

Figure 18. Courbe de réponse d’un enregistreur analogique.



14 2) Maîtriser la dégradation du signal : Pour enregistrer un signal audiofréquence sous forme numérique, un certain nombre d’opérations sont nécessaires : • prendre des échantillons à des intervalles de temps suffisamment faibles • convertir ces échantillons en valeurs numériques sur un nombre de bits N Ces opérations, étudiées dans le paragraphe Acquisition , sont résumées sur le dessin ci-dessous :

Au cours de l’opération de numérisation, on peut essentiellement agir sur deux paramètres : • la fréquence d’échantillonnage fe • le nombre de bits N sur lequel va être codé un échantillon Si la fréquence d’échantillonnage est bien choisie, la seule erreur introduite au cours de la numérisation résulte de l’approximation faite en codant un nombre infini de valeurs analogiques par un nombre fini 2N de niveaux binaires. Contrairement à ce qu’on entend quelquefois, le numérique n’est pas « parfait », simplement on peut , en augmentant le nombre de bits N , diminuer autant qu’on veut l’erreur introduite par la numérisation. Avec , comme objectif, de maintenir l’erreur de quantification en dessous du seuil de sensibilité de l’oreille. On montre que le rapport signal/bruit après cette opération de quantification dépend du nombre de bits N par la relation : S/B en dB ≈≈≈≈ 6.N + 2 soit : S/B = 50 dB pour un codage sur 8 bits S/B = 98 dB pour un codage sur 16 bits ( qualité CD ) Pour respecter intégralement la dynamique de l’oreille de 140 dB, et en supposant que les autres maillons de la chaîne puissent restituer cette dynamique..., il faudrait coder le signal sur 23 bits.

Figure 19. Principe de l’acquisition d’un signal analogique.



15 A la lecture, les signaux binaires sont remis en forme, le cas échéant restaurés grâce aux algorithmes de corrections d’erreurs puis transformés en échantillons analogiques :

Dans cette opération de lecture, une distorsion peut s’introduire lors de la reconstitution du signal analogique à partir du signal en marche d ’escalier ( voir paragraphe Restitution ). En conclusion, le passage à un signal numérique se fait avec introduction d’une erreur maîtrisée et choisie à priori, alors qu’on s’affranchit de la dégradation liée au support ou au canal de transmission subie dans un traitement analogique. 3) Utilisation de traitements particuliers : Une fois le signal numérisé, un grand nombre de traitements sont possibles grâce aux progrès spectaculaires faits ces dernières années dans le domaine du traitement numérique du signal. On peut évidemment citer des traitements classiques comme la correction de timbre ou le filtrage passe-haut et passe-bas. Mais grâce aux techniques numériques, on pourra aussi supprimer des défauts localisés affectant le support : c’est le rôle imparti aux techniques de correction d’erreurs. Les données numériques correspondants aux différents échantillons du son sont brassés avant d’être inscrits sur le support. Ainsi, si par suite d’un défaut du support des données sont perdues, le système numérique pourra les retrouver par un calcul mathématique d’interpolation. On peut de cette façon supprimer l’effet d’un petit trou dans la couche d’oxyde lors d’un enregistrement magnétique, et d’une poussière ou d’une rayure sur un CD audio, ce qui est impossible à faire sur un enregistrement analogique. Le traitement numérique du signal a permis aussi de faire une numérisation plus « intelligente » dans le but de réduire le flot de données numériques à transmettre ou à stocker. C’est toute la famille des techniques de compression de débit dont les applications s’étendent rapidement.

Figure 20. Principe de la restitution d’un signal analogique.



16 Voici la situation au point de vue du bruit de quantification après une numérisation de type classique :

Le bruit de quantification est la plupart du temps largement en dessous du seuil d’audition, ce qui est un « luxe » puisque cela correspond à un débit numérique qu’on pourrait réduire. Dans les techniques de compression de débit actuelles, on analyse le signal à l’aide de filtres sélectifs numériques et on digitalise chaque bande de fréquence sur un nombre de bits juste suffisant pour que le bruit de quantification reste un peu inférieur au seuil d’audition :

Il est clair qu’à cause de l’effet de masquage la courbe de sensibilité de l’oreille se déforme au cours du temps en fonction du contenu musical du signal. Seul un traitement numérique puissant permettra de réaliser la fonction ainsi décrite. Ces techniques de compression du débit numérique ont fait des progrès très importants ces dernières années et sont utilisées de façon quasi systématique dans tous les systèmes audio et vidéo numériques.

Figure 21. Bruit de quantification apparaissant à l’acquisition.

Figure 22. Le codage par bandes permet de maintenir le bruit de quantification juste en-dessous du seuil d’audition.

Figure 23. Les différentes réductions de débit utilisées dans la pratique.

Il est clair que la qualité diminue lorsque le taux de compression augmente, et le choix final ne peut aboutir qu’à un compromis débit numérique/qualité.



17 III) Acquisition d’un signal analogique : Elle se fait en trois phases distinctes :

• la prise d’un échantillon ou échantillonnage • son maintien durant la conversion A/N ou blocage • la conversion analogique-numérique

L’échantillonnage modifie la forme du signal et donc son spectre . On étudiera successivement les différents aspects de cette acquisition. 1) Echantillonnage : Pour échantillonner un signal analogique continu x(t) et le transformer en une suite discrète d’échantillons x*(t), on prélève périodiquement à des intervalles de temps Te la valeur du signal. Cette fonction de prélèvement d’échantillons est assurée par un commutateur analogique K qui se ferme durant un temps to très bref toutes les Te secondes. Ce temps to s’appelle temps d‘ouverture de la porte d’échantillonnage. Le signal échantillonné est constitué par un train d’impulsions espacées de Te , de largeur to et d’amplitude x(nTe).

t

x*(t)

Te 2Te 3Te 4Te

to

échantillonneur

bloqueur

CAN

t

x(t)

t

x(t) x(t)

Signal analogique

Signal numérique sur n bits

Te

x(t) x*(t)

Figure 26. Allure temporelle d’un signal échantillonné.

Figure 24. Structure de la chaîne d’acquisition d’un signal analogique.

Figure 25. L’échantillonneur.



18 On peut considérer que ce signal échantillonné x*(t) peut être obtenu à partir du signal analogique x(t) en le multipliant par le signal d’échantillonnage d(t) suivant : Le signal d’échantillonnage d(t) est caractérisé par :

• une période de répétition Te • une largeur to • une amplitude unité

On écrira donc : x*(t) = x(t).d(t) Cette manière de voir permet de mettre en évidence simplement les effets de l’échantillonnage sur le spectre du signal x(t). 2) Spectre d’un signal échantillonné : Le signal d’échantillonnage d(t) est un signal périodique dont la décomposition en série de Fourier contient une valeur moyenne do , un fondamental d1 à la fréquence fe = 1/Te et des harmoniques dn :

d(t) = do + d1.cos(ωet) + d2.cos(2ωet) + ... + dn.cos(n.ωet) + ... avec : do = to/Te et dn = 2.sin(nπto/Te) nπ Comme la durée d’ouverture to est faible par rapport à la période d’échantillonnage Te, l’angle nπto/Te est petit et on pourra confondre le sinus avec l’angle pour les premiers harmoniques , soit : dn ≈ 2. nπto/Te. nπ ≈ 2to/Te Le début du spectre de d(t) a donc l’allure suivante :

fréquence

amplitude

2to/Te to/Te

Fe = 1/Te 2Fe 3Fe 4Fe

Figure 28. Début du spectre du signal d’échantillonnage.

t

d(t)

Te 2Te 3Te 4Te

1

Figure 27. Allure temporelle du signal d’échantillonnage.



19 Le signal échantillonné x*(t) s’écrit alors : x*(t) = x(t).d(t) = x(t).( to/Te + 2to/Te. cos(ωet) + 2to/Te. cos(2ωet) + ... ) = x(t).to/Te + 2to/Te.x(t). cos(ωet) + 2to/Te.x(t). cos(2ωet) + ... On constate que le signal échantillonné est beaucoup plus riche puisqu’il contient des termes à tous les multiples de la fréquence d’échantillonnage Fe. Plaçons nous dans le cas particulier simple d’un signal échantillonné x(t) sinusoïdal dont le spectre est formé d’une raie à F : x(t) = Acos(Ωt) Le signal échantillonné s’écrit alors : x*(t) = to/Te.Acos(Ωt) + 2to/Te.Acos(Ωt).cos(ωet) + 2to/Te.Acos(Ωt).cos(2ωet) + ... = to/Te.Acos(Ωt)+ to/Te.A(cos(ωe-Ω)t)+ cos(ωe+Ω)t)+ to/Te.A(cos(2ωe-Ω)t)+ cos(2ωe+Ω)t) + ... et le spectre du signal sinusoïdal échantillonné x*(t) a l’allure suivante : On obtient le spectre de x*(t) en reproduisant le spectre de x(t) autour de chaque multiple de la fréquence d’échantillonnage Fe. Ce résultat se généralise à un signal x(t) de forme quelconque et permet de dessiner sans peine le spectre du signal échantillonné x*(t) correspondant : Le signal échantillonné a un spectre extrêmement riche, ce qui était évident à priori puisqu’il s’agit d’un train d’impulsions très fines. Cette grande étendue spectrale ne pose pas de problème puisque ce signal n’est pas destiné à être amplifié, mais sera immédiatement bloqué puis converti en signal numérique .

fréquence

amplitude

Ato/Te

F Fe-F Fe+F 2Fe-F 2Fe+F

fréquence

Amplitude

Fmax

V

fréquence

Amplitude

Fe 2Fe

Vto/Te

Spectre du signal x(t) Spectre du signal échantillonné x*(t)

Figure 29. Spectre d’une sinusoïde échantillonnée.

Figure 30. Spectre d’un signal échantillonné quelconque.



20 3) Règle de Shannon : Cette décomposition un peu théorique il est vrai entre l’échantillonneur et le bloqueur nous permet de mettre en évidence de façon simple les règles qu’il faut respecter pour une acquisition correcte et en particulier comment choisir la fréquence d’échantillonnage pour un signal donné. En effet, l’opération d’échantillonnage ne doit pas amener une perte d’informations. Autrement dit l’opération d’échantillonnage doit être réversible et on doit pouvoir repasser du signal échantillonné au signal initial. On voit facilement que ceci n’est possible que si la fréquence Fe est suffisamment élevée, d’où le résultat fondamental : Si on ne veut pas perdre d’information, il faut que la fréquence d’échantillonnage soit au moins égale au double de la fréquence maximale Fmax contenue dans le signal. Dans ce cas, on pourra revenir en arrière par simple filtrage passe-bas. Si on n’échantillonne pas assez vite, les différents paquets spectraux se recouvrent. Dans la pratique, la règle de Shannon nous conduit aux choix suivants : • Son en qualité téléphonique : Fmax = 3 kHz et Fe = 8 kHz Chaque échantillon est codé sur 8 bits, soit un débit D = 8.8000 = 64 kbits/s • Son en qualité hi-fi : Fmax = 20 kHz et Fe = 44,1 kHz Codage en stéréo sur 16 bits, soit un débit D = 2.16.44100 = 1,41 Mbits/s

fréquence

Amplitude

Fmax

V

fréquence

Amplitude

Fe 2Fe

Vto/Te

Filtre

fréquence

Amplitude

Fmax

V

fréquence

Amplitude

Fe 2Fe

Vto/Te

Figure 31. Signal échantillonné avec le bon choix de Fe

Figure32. Signal échantillonné à une fréquence d’échantillonnage in correcte..



21 4) Filtre anti-repliement : Le bon choix de Fe nécessite de bien connaître la valeur de Fmax, fréquence maximale contenue dans le signal à échantillonner. A ce niveau, il ne faut pas confondre la fréquence maximale utile ( par exemple 20 kHz pour la musique ) avec la fréquence maximale effectivement présente dans le signal qui est toujours supérieure à la fréquence précédente ( bruit produit par le préamplificateur du micro au delà de 20 kHz par exemple ). Plaçons-nous par exemple dans la situation de l’enregistrement numérique d’un musicien en studio. Le pianiste joue son morceau, la musique est enregistrée à l’aide d’un microphone qui, avec son préamplificateur, a une bande passante de 40 kHz. Personne n’a remarqué la chauve-souris qui dormait dans l’instrument et qui, réveillée par la musique, pousse des cris parfaitement inaudibles puisque dans la bande ultrasonore. Le microphone fournit donc un signal électrique composé: • de la musique produite par le musicien dans la bande 20 Hz-20 kHz • de bruit électrique à densité spectrale constante dans la bande 0-40 kHz • du cri de la chauve-souris à 35 kHz L’ingénieur du son choisit une fréquence d’échantillonnage Fe = 44,1 kHz en pensant respecter parfaitement la règle de Shannon. C’est parfaitement vrai pour la musique, mais pas pour le bruit, ni pour le cri de la chauve-souris. Le spectre du signal échantillonné est alors le suivant : On constate l’apparition dans la bande audio par repliement de spectre : • du cri de la chauve-souris à 44,1 - 35 = 9,1 kHz qui est devenu audible • d’une augmentation du bruit provenant du bruit au-delà de 20 kHz replié vers les BF Pour éviter ces problèmes, il faut s’assurer que le spectre est vraiment limité à Fmax. La meilleure façon de s’en assurer est de placer un filtre à coupure raide qui supprimera tous les signaux parasites au-delà de la fréquence limite Fmax : c’est le filtre anti-repliement. Ce filtre passe-bas doit avoir les spécifications suivantes : • fréquence de coupure égale à Fmax • variations de gain minimales dans la bande passante • pente la plus raide possible après la coupure • atténuation hors bande passante adaptée au nombre de bits N de la numérisation En effet, les signaux parasites au-delà de Fmax vont être atténués par le filtre anti-repliement et se retrouver dans la bande du signal. Pour que ces parasites repliés ne soient pas gênant, il suffit que leur niveau soit suffisamment faible c’est à dire d’un niveau inférieur à la résolution du convertisseur analogique-numérique.

f en kHz

Amplitude

20 40

f en kHz

Fe

Raie parasite à 35 kHz

Raie parasite repliée à 9,1 kHz

Figure 33. Spectre d’un signal musical + bruit échantillonnés.



22 Par exemple, on désire échantillonner un signal de fréquence maximale Fmax = 1 kHz et le numériser sur 8 bits. Le rapport signal/bruit après numérisation sera de : S/B = 6.N + 2 = 50 dB On utilisera donc une filtre anti-repliement coupant à fc = 1 kHz, au moins du 6ème ou du 8ème ordre, ayant une atténuation hors bande d’au moins 60 dB On pourra par exemple utiliser un filtre MAXIM Max 294 du huitième ordre dont la courbe de réponse a l’allure suivante :

Dans le cas d’une acquisition d’un signal musical sur 16 bits, le filtre anti-repliement aura nécessairement une atténuation supérieure à 100 dB hors bande, ce qui n’est pas sans poser des problèmes de réalisation technologique . En conclusion, le filtre anti-repliement ne supprime pas le phénomène de repliement, mais atténue le signal replié au point de le rendre négligeable. 5) Le bloqueur : Pour permettre la conversion analogique-numérique entre deux instants d’échantillonnage, il faut maintenir la valeur du signal x(nTe) à l’entrée du convertisseur jusqu’à l’arrivée de l’échantillon suivant. De ce fait l’échantillonneur est toujours suivi dans la pratique d’un circuit de maintien appelé bloqueur. Dans la pratique, cette mémorisation de la grandeur analogique est toujours réalisée à l’aide d’un condensateur qui devra être choisi avec un faible courant de fuite.

Figure 34. Exemple de gabarit de filtre anti-repliement.

Figure 35. L’échantillonneur-bloqueur



23 Voici un exemple de réalisation pratique d’un échantillonneur bloqueur : Pour éviter une perte de charge de C durant la phase de maintien, il faut utiliser un Aop à faible courant d’entrée et un condensateur de très bonne qualité à faibles pertes. 6) Quantification : Le signal en marches d’escalier peut maintenant être converti en une suite de valeurs binaires. Il faut donc classer les échantillons analogiques selon différents niveaux : c’est le rôle du quantificateur réalisé en pratique par le convertisseur analogique-numérique. Voici par exemple la caractéristique de transfert d’un quantificateur sur 4 bits en code binaire décalé :

Le dispositif fonctionne en deux temps : • K fermé : échantillonnage C se charge à la tension x(nTe) avec une constante de temps RC • K ouvert : phase de blocage C garde sa charge et on a s(t) = -x(nTe)

Figure 37. Caractéristique de transfert d’un quantificateur linéaire.

R R

C x(t) K

- +

s(t)

Figure 36. Exemple pratique d’échantillonneur-bloqueur.



24 Il est clair qu’en remplaçant une échantillon par un autre de valeur voisine, on introduit une erreur d’arrondi quasiment aléatoire appelée bruit de quantification. Cette erreur d’arrondi sera d’autant plus faible que le nombre de niveaux numériques sera grand, elle diminue donc lorsque le nombre de bits N augmente. C’est à ce niveau que se trouvent la faiblesse et la force des systèmes numériques : • faiblesse car on dégrade la qualité en quantifiant • force car on peut toujours améliorer la qualité en augmentant le nombre de bits N Rappelons la formule donnant l’importance de ce bruit de quantification : S/B en dB = 6.N + 2 Ce rapport Signal/Bruit est évidemment atteint pour un signal d’amplitude maximale Smax utilisant la pleine échelle des 2N niveaux. Le bruit de quantification a une valeur crête égale au quantum Q. Si l’amplitude du signal traité diminue, le rapport S/B se dégrade. Voici l’allure du bruit de quantification pour un signal quelconque :

Contrairement au bruit d’un système analogique, ce type de bruit qui se traduit par une sorte de bourdonnement n’apparaît qu’en présence d’un signal. Un convertisseur analogique-numérique 8 bits travaille sur une plage d’entrée de -5V à +5V. La conversion se fera donc sur 256 niveaux. Le bruit de quantification a une valeur crête de Q = 10/256 = 40 mV quel que soit l’amplitude du signal. • un signal d’entrée sinusoïdal d’amplitude 5V sera digitalisé sur 256 niveaux, d’où un rapport S/B = 6.N + 2 = 50 dB • un signal d’entrée sinusoïdal d’amplitude 2,5V sera digitalisé sur 128 niveaux soit 7 bits , d’où un rapport S/B plus faible de : S/B = 44 dB.

Figure 38. La valeur crête du bruit de quantification ne dépend pas du niveau du signal.



25 La courbe montrant l’évolution du rapport signal/bruit après quantification sur 8 bits en fonction du niveau du signal traité met en évidence le phénomène : Cette dégradation du rapport S/B pose un problème dans des applications comme le téléphone pour lequel la voix est justement codée sur N = 8 bits. Si on veut avoir un confort d’écoute satisfaisant, il faut avoir au moins une dynamique de 30 à 40 dB, ce qui veut dire qu’un conversation à fort niveau ( -5dB ) se fera avec une qualité tout à fait satisfaisante ( S/B = 45 dB ), alors qu’une conversation plus « intime » (-40dB ) se fera avec une piètre qualité ( S/B = 10 dB ). Pour pallier à ce défaut, on utilise en téléphonie une courbe de quantification non linéaire qui permet d’avoir un rapport S/B constant sur une plage de dynamique supérieure à 30 dB.

Dans le cas de la musique échantillonnée sur 16 bits, la situation est un peu différente. En effet, avec une quantification sur 16 bits le rapport signal/bruit est voisin de 100 dB à niveau maximal. Si la chaîne de reproduction sonore est capable de fournir à niveau maximal un volume sonore de 110 dB ( amplificateur de 100 W, enceintes de rendement 90 dB/W ), le bruit de quantification reste à un niveau de 10 dB , soit à peine au-dessus du seuil d’audition.

S/B dB après quantification

niveau du signal S/Smax

50 40 30 20

-50 - 40 -30 -20 -10 0

Figure 39. Dans un système à quantification linéaire, le rapport S/B diminue avec le niveau du signal.

Figure 40. Exemple de système à quantification non-linéaire.



26

Ce bruit de quantification sera probablement plus faible que le bruit thermique en sortie de la chaîne de reproduction sonore et que le bruit ambiant. Ceci explique pourquoi on n’utilise jamais de quantification non linéaire dans les systèmes de traitement du son digitalisé sur 16 bits.

Figure 41. Le niveau de bruit de quantification dans un système audio numérique à 16 bits.



27 IV) Restitution d’un signal analogique : 1) Par circuit de maintien : En sortie du système numérique, il faut transformer la séquence numérique yn en signal analogique y(t). Pour cela, la séquence yn est appliquée à un convertisseur numérique analogique qui fournit en sortie les échantillons y(nTe). Ces convertisseurs sont toujours équipés d’un bloqueur qui maintient en sortie la valeur de l’échantillon y(nTe) jusqu'à l’arrivée de l’échantillon suivant y((n+1)Te). Le signal en marches d’escaliers ainsi obtenu est simplement lissé par un filtre passe-bas. Dans cette figure, les différents types de traits correspondent aux signaux suivants : On constate que cette structure ne fournit pas le signal idéal yi(t), mais une approximation y(t) de ce signal, ce qui n’est guère acceptable dans un système de reproduction du son de bonne qualité. En théorie, on peut obtenir yi(t) à partir de y*(t) par simple filtrage passe-bas : Cette solution n’est pourtant pas envisageable dans la pratique parce qu’elle donne un signal yi(t) certes exact, mais d’amplitude extrêmement faible et donc forcément parasité par des signaux numériques (horloge par exemple ).

y*(t) : échantillons analogiques correspondant aux valeurs numériques yn yi(t) : signal analogique idéal passant par les échantillons y*(t) y(t) : signal réellement obtenu en sortie du filtre passe-bas de restitution

fréquence

Amplitude

Fe 2Fe

Vto/Te

Filtre passe-bas

Figure 43. Restitution du signal analogique par filtrage passe-bas.

CNA Bloqueur Passe-bas

yn y*(t) y’(t) y(t)

temps

amplitude

Figure 42. Structure d’un système de restitution.



28 Pour voir simplement l’influence du bloqueur sur le signal de sortie, dessinons le spectre du signal en sortie du bloqueur en considérant celui-ci comme un filtre dont la transmittance (et par conséquent aussi la courbe de gain et la courbe de phase) a une expression très particulière : La transmittance du bloqueur est une courbe en sin(X)/X appelée aussi sinus cardinal et la courbe de phase est linéaire. Pour obtenir le spectre du signal en sortie du bloqueur, il suffit de superposer le spectre des échantillons y*(t) et la transmittance du bloqueur : On constate les résultats suivants : • le premier paquet spectral est légèrement déformé à cause de la chute du gain du bloqueur,

l’atténuation étant la plus sensible au voisinage de Fmax • les paquets autour de Fe, 2Fe ... sont atténués mais subsistent et traduisent la présence des

marches d’escalier

fréquence

Transmittance

Fe 2Fe 3Fe 4Fe

phase

fréquence Fe 2Fe 3Fe 4Fe

-

T(p) = 1 - e-Tep p

Figure 44. Transmittance du bloqueur.

Fe 2Fe fréquence

Amplitude Figure 45. Restitution par bloqueur.



29 Le filtre passe-bas de restitution permet de supprimer ces paquets autour de Fe, 2Fe ...et ainsi de lisser le signal : On constate que le signal y(t) en sortie du filtre de restitution diffère du signal idéal yi(t) correspondant aux échantillons sur deux points : • une atténuation des fréquences aiguës due à la chute de gain du sinus cardinal ( de l’ordre de 3dB

à Fe/2 ) • un déphasage de Te/2 lié à la courbe de phase du bloqueur qui n’est absolument pas gênant dans

la pratique Pour passer d’un signal numérique au signal analogique correspondant, on dispose actuellement de 3 possibilités suivant les exigences de précision et de simplicité de réalisation qu’on s’impose : 2) Utilisation d’un filtre compensateur de sinus cardinal : On peut très bien grâce au filtre compenser la perte des aiguës en utilisant un filtre dont la courbe de gain augmente légèrement jusqu’à Fmax : Ce filtre doit remonter le gain de 4 dB environ à la fréquence Fe/2. Si on veut une correction parfaite, ce filtre est délicat à réaliser en analogique, vu l’expression particulière de la transmittance du bloqueur. L’Inconvénient de cette technique est qu’elle nécessite la mise en oeuvre d’un filtre analogique assez difficile à réaliser dans la pratique.

Filtre passe-bas de restitution

fréquence

Amplitude

Fe

Figure 46. Utilisation d’un filtre passe-bas de restitution.

Filtre passe-bas de restitution compensant la chute de gain du bloqueur

fréquence

Amplitude

Fe 2Fe

Chute de gain du bloqueur sin(x)/X

Figure 47. Filtre passe-bas de restitution compensateur de sinus cardinal.



30 3) Restitution par suréchantillonnage : Le convertisseur numérique-analogique est précédé d’un interpolateur linéaire qui calcule un certain nombre d’échantillons qui seront placés entre yn et yn+1. Dans le cas du quadruple suréchantillonnage, la situation au niveau des échantillons et du spectre est la suivante : On dispose alors de 4 échantillons au lieu d’un seul pour la période d’échantillonnage Te. La nouvelle fréquence d’échantillonnage apparente vaut donc : F’e = 4.Fe et le spectre du signal après conversion et blocage a l’allure suivante : On constate que dans la bande du signal le gain du bloqueur reste pratiquement à une valeur constante, le signal restitué est donc presque le signal idéal défini précédemment. La seule différence provient du fait que les échantillons intermédiaires ne sont pas des échantillons exacts, mais calculés par interpolation linéaire.

yn yn+1

échantillons calculés par l’interpolateur linéaire

temps

Filtre passe-bas de restitution

Amplitude

4 Fe 8 Fe

Figure 48. Calcul d’échantillons intermédiaires.

Figure 49. Signal restitué après suréchantillonnage



31 L’amélioration de la restitution se constate aussi aisément sur le dessin des échantillons : • sans interpolation : •••• avec quadruple suréchantillonnage : Pour que l’interpolation soit effectivement utile, même entre deux échantillons qui ne diffèrent que par le bit de poids le plus faible, il faut évidemment que les échantillons obtenus par calcul soient codés sur un nombre de bits supérieur que le signal de départ. C’est ainsi que dans les lecteurs de disques compacts actuels qui utilisent couramment l’octuple suréchantillonnage à la restitution, en sortie de l’interpolateur les échantillons sont codés sur 20 voire 22 bits. Cela suppose l’existence de convertisseurs numériques analogique de précision suffisante. Disons simplement qu’on dispose actuellement de convertisseurs adaptés à un octuple suréchantillonnage et que la précision de ces convertisseurs s’améliore sans cesse.

yn

yn+1

nTe (n+1)Te

yi(t) : signal idéal

y(t) : signal réel

temps

temps

yn

yn+1

échantillons calculés par l’interpolateur

yi(t) : signal idéal

y(t) : signal réel

Figure 50. Signal restitué sans interpolation.

Figure 51. Signal restitué avec interpolation.



32 V) Les systèmes audionumériques actuels : 1) Capacité de stockage et débit numérique : Le standard de numérisation actuel est celui utilisé pour le disque compact et correspond à un échantillonnage à Fe = 44,1 kHz et un codage sur 16 bits pour les deux voies, ce qui correspond à un débit numérique de : D = 2.16.44100 = 1,41 Mbits/s Avec ce standard, le rapport signal/bruit théorique est de 98 dB. Au niveau du support ( disque ou bande ), l’objectif est d’arriver à une capacité de stockage supérieure à 1 heure. Nous en déduisons la valeur de capacité nécessaire : Capacité totale = débit.durée = 1,41.106.3600 = 5 Gbits/heure = 625 Moctets/heure environ

Ainsi selon le standard précédent : • une disquette ordinaire 1,44 Moctets peut contenir 8 secondes de musique • un disque dur 1,2 Goctets peut stocker 2 heure • un disque compact peut stocker environ 600 Moctets soit 1 heure de musique Une autre limitation est la vitesse d’enregistrement et de lecture des données numériques. Si le débit de 1,41 Mbits/s peut être assuré par les procédés optiques, ce chiffre est bien trop rapide pour une tête d’enregistrement et de lecture magnétique fixe. Il a donc fallu développer des techniques particulières qui peuvent se classer en deux familles :

• réduire le débit numérique en s’adaptant à l’oreille sans perte subjective de qualité • travailler en parallèle avec plusieurs têtes magnétique • utiliser un dispositif d’enregistrement et de lecture optique • utiliser des têtes tournantes comme en vidéo

Les dispositifs actuels utilisent tous l’une ou l’autre de ces techniques : • CD : pas de réduction de débit, lecture optique, stockage optique • DAT : pas de réduction de débit, enregistrement, lecture et stockage magnétique • minidisc : réduction de débit, enregistrement et lecture optique, stockage magnétique • DCC : réduction de débit, enregistrement, lecture et stockage magnétique (abandonné) Seuls les 3 derniers systèmes permettent un enregistrement facile. Malheureusement les systèmes de protection des oeuvres artistiques mis en place ont beaucoup freiné le développement de ces nouveaux produits. 2) L’enregistreur DAT : Dans la filière de production sonore, l’enregistrement magnétique sur bande ou disque est pratiquement un passage obligé vu son faible coût de revient et sa souplesse aux niveau des traitements ultérieurs (effacement, mixage etc ...). La limitation liée aux têtes de lecture aux hautes fréquences est la plus gênante et conditionne toute la technologie. En effet, il est nécessaire que les signaux élémentaires enregistrés aient une dimension suffisamment importante devant les cristaux magnétiques disposés sur le ruban. Il est aussi nécessaire que ces signaux élémentaires soient d'une taille supérieure à la largeur de l'entrefer de la tête de lecture, chargé de collecter le champ magnétique enregistré.



33 Une cassette audio analogique peut fournir un enregistrement à peu près fiable à 10 kHz. La vitesse de défilement standard étant de 4,75 cm/s, la longueur de l'onde enregistrée sur le ruban est donc : λ = 4,75.10-2/104 = 4,75 µµµµm Cela veut dire que sur une bande magnétique ordinaire on peut enregistrer des données avec une densité de l’ordre de 1 bit tous les 2 µm. Pour un débit d'information de 1,4 Mbits/s, la vitesse de défilement de la bande devra être de : v = 1,4.106.2. 10-6 ≈ 3 m/s On est donc loin des 4,75 cm/s des magnétophones analogiques.

Le DAT (Digital Audio Tape) fut le premier système d'enregistrement numérique spécialement conçu pour des applications grand public. Le DAT utilise un système à tambour genre vidéo, associé à une cassette de petite taille contenant une cassette de 3,8 mm de large. Elle ressemble fort à une cassette vidéo miniature dont elle reprend le volet de protection qui s'ouvre au moment de l'introduction de la cassette dans le magnétophone. Les DAT fonctionnent aux fréquences compatibles avec les trois grandes catégories d'applications : 48 kHz pour les applications de haute qualité et professionnelles, 44,1 kHz pour la compatibilité avec le Compact Disc, 32 kHz pour la radiodiffusion numérique et les enregistrements longue durée de qualité moindre. Comme dans le cas du disque compact, les données sont enregistrées après brassage et introduction de codes correcteurs d’erreurs, mais le signal ne subit aucun traitement de compression de débit. Dans un DAT la grande vitesse relative tête bande est obtenue en fixant les têtes sur un cylindre rotatif tournant à grande vitesse ( 2000 tours/mn ).

La bande défile à vitesse lente ( 8,15 mm/s ) en contact avec ce cylindre, de manière que chaque tête inscrive sur la bande une piste en décrivant une trajectoire oblique par rapport à l'axe de la bande.

Figure 52. Structure mécanique du DAT.



34 La vitesse relative résultante est de 3,13 m/s. La densité d’écriture atteint 2400 bits/mm, soit 0,42 µm par bit.

A l'enregistrement, la rotation de la tête doit être synchronisée avec le signal, de manière que chaque piste comporte une fraction cohérente de signal (une trame entière). Simultanément, on enregistre sur une zone spéciale de la bande prévue à cet effet des signaux qui permettront, à la lecture, de localiser la position des pistes sur la bande et de corriger la trajectoire des têtes. La mécanique est donc délicate. L’électronique de pilotage de la platine est complexe et comprend fréquemment plusieurs microprocesseurs. Les performances obtenues sont excellentes, la bande passante dépendant évidemment du choix de la fréquence d’échantillonnage. Voici les courbes de réponse obtenues sur un appareil de ce type pour les deux fréquences d’échantillonnage possibles : 32 kHz et 48 kHz.

Les caractéristiques principales de l’enregistreur DAT sont : • dimensions de la cassette 73 x 54 x 10,5 mm • largeur de bande 3,81 mm • vitesse de bande 8,15 ou 4,075 mm/s • vitesse du tambour 2000 tours/mn • vitesse têtes/bande 3,13 m/s ou 11,3 km/h • taille d’une piste 23,5 mm x 13,59 µm • nombre de bits par piste : 196 blocs de 288 bits soit 56448 bits • densité linéaire 2400 bits/mm

Figure 54. Exemple de courbe de réponse d’un DAT.

Figure 53. Inscription des données sur la bande.



35 3) Le disque compact : Sur ce support, l’information numérisée selon le standard défini précédemment est inscrite sous la forme de cuvettes réfléchissantes car recouvertes d’une fine pellicule d’aluminium.

Lors de la lecture, un point du disque est éclairée par une diode laser à semi-conducteur à arséniure de gallium. Ce composant est réalisé autour d’une jonction P-N polarisée en direct et constituant une cavité résonante. Cette diode laser émet une puissance lumineuse inférieure à 2,5 mW et le courant qu’elle consomme est de l’ordre de 50 à 60 mA. Ce courant augmente lors du vieillissement de la diode laser et peut atteindre 100 mA : on peut alors considérer que la diode laser est épuisée et il faut procéder au remplacement du bloc optique( durée de vie de l’ordre de 6000h ).

Pour pouvoir réguler la puissance émise par la diode laser, il faut la mesurer, ce qui se fait par l’intermédiaire d’une photodiode montée dans le boîtier de la diode laser.

Figure 55. Inscription des données sur un CD.

Figure 57. Structure d’une diode laser.

Figure 56. Effet de la régulation de puissance sur le courant de la diode.



36 Le faisceau lumineux émis par cette diode laser est focalisé sur le disque sous la forme d’un spot plus large que les cuvettes et s’y réfléchit .

Deux cas peuvent se présenter : • si le spot tombe sur un endroit dépourvu de cuvette, tout le rayonnement émis par le laser revient

alors en phase et l’éclairement de la cible est maximal. • si le spot tombe sur une cuvette, une partie du faisceau se réfléchit au fond de la cuvette, l’autre

partie du faisceau sur le disque. La profondeur de la cuvette étant de l’ordre de λ/4, la partie du rayonnement se réfléchissant au fond de la cuvette revient avec un déphasage de 180° par rapport au rayonnement se réfléchissant sur le disque. Il en résulte une interférence soustractive et un éclairement de la cible beaucoup plus faible.

• en b : tout le rayonnement revient en phase, éclairement maximal • en a : la moitié du rayonnement se réfléchit dans la cuvette, l’autre moitié ( car S1 + S3 = S2 ) se

réfléchit sur le disque. L’éclairement est quasi nul. • en c : l’éclairement a une valeur intermédiaire

Figure 59. Technique de lecture des informations sur le disque.

Figure 58. Géométrie du trajet optique dans un lecteur CD..



37 Le signal en sortie de la photodiode cible a alors l’allure suivante quand le disque tourne :

Outre la lecture du signal numérique, le bloc optique doit aussi permettre l’asservissement de la focalisation du faisceau laser et le suivi de la piste ( tracking ). La régulation de focalisation utilise une lentille cylindrique qui déforme la tache arrivant sur la cible. Celle-ci comporte 4 zones sensibles A,B,C et D.

Figure a : la lentille de focalisation est trop basse, le point de focalisation est en dessous du miroir du CD. Le faisceau réfléchi est séparé par le miroir semi-transparent et traverse la lentille cylindrique. Le faisceau émergeant de la lentille cylindrique est elliptique et éclaire plus fortement les photodiodes B et D de la cible. Figure b : la focalisation est correctement réalisée. L'angle d'incidence du faisceau arrivant sur la lentille cylindrique donne un faisceau émergeant à section circulaire. Les quatre photodiodes de la cible sont également éclairées. Figure c : la lentille de focalisation est trop haute , le point de focalisation est au-dessus du CD. Le faisceau émergeant de la lentille cylindrique est à nouveau elliptique et éclaire plus fortement les photodiodes A et C de la cible. L’exploitation des signaux issus des capteurs A,B,C et D permet de réaliser l’asservissement de focalisation.

Figure 60. Le signal électrique en sortie du détecteur optique.

Figure 61. Technique d’asservissement de la focalisation du faisceau laser.



38 Pour le suivi de piste, on utilise, dans les lecteurs CD actuels, la technique du triple faisceau. Pour obtenir ce triple faisceau, on utilise simplement une grille de diffraction en sortie de la diode laser.

Les spots latéraux encadrent la piste lue. Quand le spot principal est bien placé, les spots latéraux sont tangents à la piste et la quantité de lumière constituant les faisceaux latéraux réfléchis est identique. Les photodiodes de tracking E et F reçoivent une quantité de lumière identique.

Si une erreur de piste se produit, l’ensemble des 3 faisceaux se décale. Un des spots latéraux vient mordre sur la piste. La quantité de lumière réfléchie associée diminue. Les photodiodes de tracking E et F ne sont plus également éclairées.

Figure 62. Principe du triple faisceau.

Figure 63. Les spots latéraux encadrent la piste.

Figure 64. Effet d’une erreur de piste.



39 Voici un exemple concret montrant la structure de la tête de lecture :

L’électronique de lecture du signal numérique régule l’intensité du faisceau laser et utilise les signaux issus des cellules A,B,C et D pour extraite l’information utile.

Les données ne sont pas inscrites séquentiellement sur le disque, mais ont subit un brassage ainsi que l’adjonction de codes correcteurs d’erreurs qui rendent ce support insensible aux petits défauts de surfaces.

Figure 65. Structure du système optique à triple faisceau FOP de Sony.

Figure 66. Interface laser utilisant un CXA1081M de Sony



40 A chaque échantillon est attribué un mot de 16 bits (soit deux octets). L'enregistrement est stéréophonique, à chaque impulsion de la fréquence d'échantillonnage fe, on obtient en sortie des circuits de quantification 2 x 16 bits = 32 bits = 4 octets. Chaque trame contient 6 échantillons stéréophoniques (6 x 4 = 24 octets, soit 192 bits) auxquels il faut a jouter un certain nombre d'informations. Le mot de synchronisation (codé sur 24 bits) est placé en tête de chaque trame. Ce mot de synchronisation permet au processeur de traitement de signal implanté dans le lecteur, de reconnaître le début de chaque trame. Il est utilisé par les circuits d'asservissement de débit trame et permet de déterminer en partie la vitesse de rotation du disque (vitesse de lecture de l'ordre de 1,2 à 1,4 m/s). Les mots de service et systèmes sont ces informations codées sur un octet qui contiennent des données appelées sous-codes permettant aux circuits de traitement de signal et aux circuits de Gestion du lecteur de reconnaître le type de contenu de la trame lue : • présence ou absence d'informations audionumériques, c'est le sous-code P(pause) qui indique la

fin d'un morceau ou l'absence d'information audionumérique quand il est au niveau 0. Il indique le début d'un morceau quand il prend la valeur 1.

• repérage de la trame dans le morceau, durée et type d'enregistrement (stéréophonie, quadriphonie, préaccentuation, etc.), c'est le sous-code Q.

• affichage de graphismes, ou de textes (nom de l’auteur, intitulé de l'oeuvre, etc.), c'est le rôle des sous-codes R, S, T, U, V, W Ces sous-codes n'étant pas utilisés sur les disques au standard CDDA, le contenu est au niveau 0.

Le mot de parité est dans le principe, l'association à chaque octet de données audionumériques d'un bit (appelé bit de parité) dont la valeur est obtenue en opérant un OU exclusif entre les bits d'un octet. Si, lors de la lecture, on refait la même opération sur les bits constituant l'octet, le bit de parité reste inchangé si aucune erreur n'a été commise au moment de la gravure ou de la lecture du disque. Il devient possible de détecter une erreur mais il manque encore les éléments permettant de la corriger.

Afin de pouvoir réaliser une gravure sur le disque compatible avec les caractéristiques du faisceau laser (diamètre du spot. etc.), il est nécessaire de réduire le débit numérique. Les octets sont transposés en mots de l4 bits ( Eight to Fourteen Modulation. Par exemple, l'octet 0111 0010 est transposé en 10010010000010 de telle sorte qu'entre deux niveaux 1 successifs il puisse y avoir au moins deux niveaux 0 et au plus dix niveaux 0.

Figure 67. Structure d’une trame CD.

Figure 68. Codage EFM.



41 D'autre part, on rappelle que le passage d'une absence de cuvette à une cuvette correspond à un niveau 1 (modulation NRZl soit Non Retour à Zéro, IBM). La longueur des cuvettes enregistrés sur le disque s'en trouve allongée. Pour conserver une valeur moyenne nulle du signal de lecture, on introduit des mots de liaison de trois bits entre chaque échantillon codé et transposé EFM. Pour se protéger des macro-défauts (rayure du disque, trace de doigts, défaut de fabrication, etc.) pouvant entraîner la perte d'un ou plusieurs octets de données, on accroît la protection des données enregistrées en ayant recours à un procédé appelé entrelacement. Le procédé consiste à changer l'ordre naturel des octets à l'enregistrement. Le scrambling est le résultat d'un entrelacement réalisé au niveau des octets constituant une trame. Pour autoriser la correction de défauts plus important, on entrelace les octets sur un grand nombres de trames : c' est ce qu'on appelle interleaving. Les dispositifs permettant de corriger les erreurs de transmission (à l'enregistrement et à la gravure du disque ou lors de la lecture) sont regroupés dans un circuit de codage (à l'enregistrement) et dans un circuit de décodage (à la lecture). L'entrelacement est réparti sur un ensemble important de trames : cet ensemble constitue un secteur. Le codage et le décodage sont réalisés selon une procédure rigoureuse appelée CIRC soit Cross Interleaving Reed-Solomon Code. Un secteur est constitué de 98 trames comportant 98 x 24 = 2 352 octets de données audionumériques. La capacité de correction atteinte par le procédé CIRC est supérieure à un secteur. En lecture, quand la capacité de correction est atteinte, le signal de sortie est assourdi : c'est un mute. Caractéristiques principales d’un lecteur CD

• 2 canaux • durée 60 mn • diamètre 120 mm • épaisseur 1,2 mm • départ programme intérieur • vitesse linéaire constante (1,2 à 1,4 m/s) • profondeur de la microcuvette 0,11 µm • longueur de la microcuvette 0,9 à 3,2 µm • largeur de la microcuvette 0,5 µm

Figure 69. Allure du signal en sortie du bloc optique d’un lecteur CD.

• pas 1,6 µm • matériau : polycarbonate • densité linéaire : 43 kbits/inch • fréquence d’échantillonnage 44,1 kHz • quantification : 16 bits linéaire • modulation EFM • correction d’erreur CIRC • débit 2,03 Mbits/s



42 4) Le minidisc : Le lecteur enregistreur minidisc peut fonctionner avec deux types de disques différents mais de diamètre identique ( 64 mm) : • le CD normal utilisé pour les minidiscs préenregistrés • le CD enregistrable magnéto-optique Le bloc optique d’enregistrement lecture doit donc être capable d’exploiter ces deux types de disques. Sony a mis au point un système d'enregistrement magnétique (c'est une couche magnétique qui supporte les données) qui combine, pour l'enregistrement, les effets d'un laser et d'une tête magnétique. La technique consiste à faire chauffer à l’aide d’une impulsion lumineuse suffisamment énergique ( 5 mW environ ) une couche magnétique de ferrite au terbium et cobalt, pour l'amener à son point de Curie, température à laquelle il perd son magnétisme. Simultanément, cette couche est soumise à un champ magnétique correspondant à un « 0 » ou à un « 1 » qui oriente les molécules de cette couche. Lors du refroidissement, la polarité magnétique présente au moment du passage au point de Curie reste piégée dans la couche magnétique. Cette technique présente l'avantage de ne pas exiger de puissance magnétisante trop importante ; en revanche, le laser doit élever fortement la température de la couche magnétique. L’échauffement est très localisé, c' est la surface du point échauffé qui détermine la taille du signal. Le laser est guidé par un sillon moulé dans le disque vierge, son optique focalise la puissance du laser sur la couche magnétique.

Un minidisc enregistrable devra donc, contrairement au minidisc préenregistré, présenter une fenêtre d’accès au disque sur chaque face.

Figure 70. Principe de l’enregistrement sur disque magnéto-optique.



43 Pour la lecture, on utilise le phénomène de changement de polarisation de la lumière par un champ magnétique. La lumière est une onde électromagnétique, et à ce titre caractérisée par la présence simultanée d’un champ électrique et d’un champ magnétique, tous deux perpendiculaires à la direction de propagation.

Cette lumière est dite « polarisée » lorsque le champ électrique a une direction fixe et connue. Certaines substance appelées dichroïques absorbent plus ou moins les ondes selon la direction du champ magnétique. La lumière qui sort d’une telle substance est polarisée.

Certaines substances sont dites optiquement actives quand la direction de la polarisation tourne lorsque la lumière polarisée les traverse ou s’y réfléchit. Ainsi, une fine couche d’un alliage de terbium-ferrite-cobalt placée entre deux couches diélectriques présente une activité optique rémanente quand les molécules constituant l’alliage sont orientées correctement. Dans un minidisc, le faisceau laser est émis, se réfléchit sur le disque et va être renvoyé vers le photodétecteur avec une polarisation qui dépendra de l’état magnétique de la couche magnéto-optique.

Un dispositif transforme ensuite cette modulation de polarisation en modulation d'amplitude. On peut utiliser pour cela des filtres polariseurs ou un prisme de Wollaston.

Figure 71. La lumière est une onde électromagnétique.

Figure 73. Le trajet optique dans un lecteur enregistreur minidisc.

Figure 72. Action d’une substance dichroïque sur la polarisation de la lumière.



44 On remarquera que, la puissance de la diode étant plus importante que dans un lecteur CD, il n’est plus possible de placer la photodiode de contrôle de puissance dans le boîtier de la diode laser. La cible utilisée dans le minidisc a un arrangement particulier et ne compte pas moins de 8 surfaces sensibles.

En sortie du prisme de Wollaston, on a un faisceau principal et 4 faisceaux secondaires. Les capteurs I et J servent pour la mesure du signal optique, les autres surfaces sensibles sont utilisées pour la mesure de la focalisation du faisceau laser et pour le suivi de piste. ⇒ lors de la lecture d’un minidisc magnéto-optique, la variation de la polarisation du faisceau se traduit par une variation opposée des intensités des faisceaux I et J :

• pour un « 1 » enregistré sur le disque, le faisceau J sera plus intense que le I • pour un « 0 » enregistré sur le disque, le faisceau J sera moins intense que le I

⇒ lors de la lecture d’un minidisc préenregistré, le passage sur une cuvette se traduit par une variation simultanée des intensités des faisceaux I et J :

• si le spot tombe en dehors d’une cuvette, les faisceaux I et J seront égaux et forts • si le spot tombe dans une cuvette, les faisceaux I et J seront identiques et faibles

L’électronique de mesure exploite les signaux issus des deux cellules I et J pour produire le signal numérique contenant l’information enregistrée.

Figure 75. Interface laser utilisant un CXA1381R de Sony

Figure 74. Agencement de la cible utilisée dans le bloc optique du minidisc.



45 En ce qui concerne le suivi de piste ( tracking), la technique utilisée pour le CD à dû être adaptée vu l’absence de cuvettes sur les minidisc enregistrable. Le minidisc enregistrable est donc muni à la fabrication d’un sillon prégravé, au pas de 1,6 µm, destiné à guider la tête d’enregistrement laser. La profondeur de ce sillon est la même que celle des cuvettes d’un minidisc préenregistré.

Le spot éclaire le sillon en débordant de part et d’autre, ce qui permet de détecter une variation de niveau d’éclairement sur les 2 capteurs latéraux E et F si le spot s’écarte de la trajectoire idéale.

Pour avoir des repères sur le disque, la position du sillon oscille autour de la position moyenne à la fréquence de 22,05 kHz. Cette fréquence est modulée en fréquence par des informations concernant l’adresse ( ADIP : ADress In Pregroove ). Ce signal à 22,05 kHz modulé en fréquence pourra être récupéré dans l’électronique de suivi de piste et permettra, après démodulation, au système de se repérer sur le disque.

Figure 76. Le sillon prégravé sur un minidisc enregistrable.

Figure 76. La modulation en fréquence du sillon prégravé.



46 Contrairement au CD, toutes les informations musicales arrivant dans le message à enregistrer ne sont pas inscrites sur le disque. La technique de compression de données utilisée par le mini-disc s’appelle l’ATRAC et permet une diminution de débit d’un facteur 5 environ sans perte sensible de qualité... pour une oreille « normale » ! Dans ce système, le processeur travaille par tranches de signal et calcule le spectre de cette tranche pour évaluer les composantes spectrales par bande de fréquence et les numériser en tenant compte de l’effet de masquage. Les signaux tombant dans la bande de fréquence où l’oreille est sensible seront digitalisés avec une meilleure précision que ceux qui tombent en bout de bande audio.

Le spectre audio est divisé, par deux filtres numériques, en 3 sous-bandes :

• les basses fréquences de 0 à 5,5 kHz • les fréquences moyennes de 5,5 à 11 kHz • les fréquences aiguës de 11 à 22 kHz

Les signaux issus de ces filtres sont ensuite transformés en composantes spectrales par une transformée en cosinus modifiée ( MDCT) qui est une variante de la transformée de Fourier discrète. La longueur des tranches n’est pas fixe et ATRAC analyse plus finement les passages musicaux dont le contenu est riche. Ainsi la longueur temporelle des blocs analysés peut varier entre 1,45 ms et 11,6 ms. Avant l’application de cette transformée en cosinus, le signal est donc analysé pour savoir s’il varie rapidement ou lentement. Si le signal varie rapidement, la transformée en cosinus sera calculée sur un bloc court. En sortie des blocs de calcul de la transformée discrète, le signal est maintenant représenté par 512 coefficients spectraux.

Figure 77. Structure du codeur ATRAC.



47 Ces coefficients spectraux seront alors quantifiés avec réduction de débit : • en tenant compte de la courbe de sensibilité de l’oreille on peut quantifier de façon moins précise

les raies de fréquence très basse ou très élevée • en tenant compte des effets de masquage éventuels on peut s’éviter de quantifier des raies qui ne

seraient de toutes façons pas audibles • en supprimant les bits de poids le plus fort lorsqu’ils sont nuls ( signaux de faible amplitude)

La première version de l'Atrac n'a pas reçu un accueil unanime des amateurs d'audio une nouvelle version, plus subtile l'a remplacée et réduit l'écart entre le son numérique non comprimé et le son comprimé. A cause de la compression de débit obtenue grâce à ATRAC, le débit de données nécessaire (0,3 Mbits/s) est 5 fois inférieur au débit de lecture sur le disque ( 1,4 Mbits/s) Contrairement à ce qui se passe dans un lecteur CD, les données ne sont pas lues en continu, mais de façon intermittente. Une mémoire de capacité assez importante ( 1 Mbit soit 3 secondes de musique, ou 4 Mbits ) sert de tampon entre le dispositif de lecture de données et le décodeur ATRAC.

Figure 78. Allocation des bits par le codeur ATRAC.

Figure 79. Comparaison CD/minidisc.



48 Cette mémoire tampon est indispensable pour une autre raison. Un des défauts inhérents à la lecture, ou d'ailleurs à l'enregistrement optique, réside dans la relative sensibilité aux chocs.

Le fait de disposer de quelques secondes de musique dans la mémoire tampon laisse le temps à l’asservissement de suivi de piste de replacer le spot laser à l’endroit adéquat.

Le MD ne supporte que la fréquence d'échantillonnage de 44,1 kHz, impossible donc de faire entrer sur ces appareils les signaux d'un DAT enregistrés à 48 kHz ou ceux d'un récepteur radio satellite. La solution existe sur certains magnétophones MD, elle consiste à intégrer un convertisseur de fréquence d'échantillonnage. Son inconvénient, dans le cas d'un signal enregistré à 48 kHz, est que la bande passante est réduite. En revanche, en entrant à 32 kHz, on n'élargit ni ne rétrécit le spectre... Les données numériques enregistrées sur le MD sont stockées par paquets. Si le disque est vierge, ils seront vraisemblablement placés côte à côte. En revanche, lorsque vous avez enregistré un disque il vous est parfaitement possible d'effacer une plage. Cet effacement est purement virtuel, ce n'est que lorsque l’espace qu'elle utilisait sera réoccupé que l'effacement aura vraiment lieu. Il n'y a pas, ici, d'effacement avant enregistrement, tout s'effectue en même temps. L’effacement d'une plage se réduira à un changement dans une table d'allocation. Cette technique permet de disposer de tout l'espace laissé disponible par l'effacement de plages pour enregistrer d'autres morceaux, même plus longs, technique impensable avec un support en bande.

Figure 80. Le rôle de la mémoire tampon.

Figure 81. Comportement du lecteur minidisc en cas de choc.



49 Voici un exemple de courbe de réponse et de caractéristiques de distorsion obtenus avec un enregistreur minidisc Sony MZ-R30:

Figure 82. Caractéristiques d’un lecteur minidisc Sony.

Le traitement numérique du signal audio - … · Le traitement numérique du signal audio...

Documents

Transcript of Le traitement numérique du signal audio - … · Le traitement numérique du signal audio...