CODAGE ET TRANSPORT DE LA VOIX SUR IP -...
Transcript of CODAGE ET TRANSPORT DE LA VOIX SUR IP -...
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 1
CODAGE ET TRANSPORT DE LA VOIX SUR IP
1. Les codecs Pour pouvoir utiliser les mêmes liaisons que les autres données, sur le réseau du FAI,
la voix est multiplexée :
Pour être ainsi transportée, sous forme de paquets, la voix doit être numérisée :
Les Codecs (COdeur/DECodeur) permettent la conversion analogique/numérique à
l’émission puis la conversion numérique/analogique à la réception de la parole
téléphonique.
2. Synoptique La transformation d’une onde sonore en « paquets » de données comporte plusieurs
étapes :
- Conversion énergie mécanique / énergie électrique
- Conversion analogique/numérique
- Codage-Compression
- Paquétisation-Ajout des en-têtes
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 2
échantillonnage
conversion
onde sonore
1
signal analogique
signal discret
quantification
conversion
analogique
/
numérique
signal quantifié
Compression-codage
signal codé
Paquétisation -
ajout des en-têtes
paquet
Éventuellement :
suppression des silences
2
3
4
5
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 3
2.1 Conversion onde sonore/signal électrique
Cette première étape est réalisée à l’aide d’un microphone.
Le microphone est un transducteur d'énergie, qui transforme de l'énergie acoustique
en énergie électrique.
2.2 Echantillonnage et quantification
La conversion analogique/numérique (CAN) permet de représenter le signal analogique,
image de la parole, sous forme d’un ensemble fini de nombres à une fréquence d’échantillonnage fixée.
Cette CAN se caractérise par :
La fréquence d’échantillonnage, c’est-à-dire la période avec laquelle le signal
analogique est mesuré au cours du temps.
La méthode de quantification, c’est-à-dire le nombre et la distribution des
valeurs discrètes qui sont utilisées pour la mesure.
2.2.1 Echantillonnage
Mathématiquement, le processus d’échantillonnage est le résultat de la multiplication
d’une série d’impulsions d’amplitude 1 par le signal analogique. On obtient des
impulsions à amplitude modulée (PAM =Pulse Amplitude Modulation) :
Théorème de Shannon
La fréquence minimale d’échantillonnage d’un signal doit être au moins le double
de la fréquence maximale contenue dans le signal à échantillonner :
Fech 2 * Fmax_signal
On considère alors que les échantillons contiennent toutes les informations du signal
original.
t t
1
Te = 1/fe
t
X =
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 4
t
0000
0001
0010
0011
0100
0110
0111
1000
1001
1010
1011
1100
1110
1111
Comme la parole
téléphonique a une bande passante de 3200Hz, ce
sont au moins 6400
échantillons qui doivent être
acheminés au récepteur.
La normalisation a optée
pour un échantillonnage
8000 fois par seconde
2.2.2 Quantification
La quantification permet de représenter chaque échantillon par une valeur numérique
au moyen d’une loi de correspondance.
2.2.2.1 Quantification linéaire
La loi la plus simple consiste à diviser l’ordonnée en segments égaux, le nombre de
segments dépendant du nombre de bits choisis pour la numérisation. C’est la
quantification linéaire.
o Exemple : quantification sur 4 bits :
La valeur de l’échantillon est
égale à la valeur numérique la
plus proche
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 5
t
0000
0001
0010
0011
0100
0110
0111
1000
1001
1010
1011
1100
1110
1111
On obtient un signal MIC (Modulation par Impulsion Codée) :
Les erreurs introduites par le processus de quantification, induisent un « bruit de quantification ». Ce bruit est la différence entre la valeur du signal analogique à
l'entrée du CAN, et la valeur du signal quantifié à la sortie. Plus l’échelle de
quantification est fine, moins le bruit est important.
o Remarque : le bruit total, dans le signal qui arrive au récepteur est la somme
de plusieurs bruits introduits par : les erreurs de quantification, la qualité de
la ligne de transmission, les ondes électromagnétiques…
SNR = Signal to Noise Ratio
SNR =
Le SNR est le rapport de l’énergie du signal transmis (S) sur l’énergie du bruit (B).
2.2.2.2 Quantification non linéaire
La loi de correspondance, pour la quantification doit être choisie de façon à ce que la valeur des signaux ait le plus de signification possible.
Ainsi, si tous les échantillons ont une valeur à peu près égale et se trouvent donc tous
rassemblés dans une zone de codage, il faut essayer d’y obtenir plus de possibilités de
codage que dans les zones où il y a peu d’échantillons, de façon à pouvoir distinguer la valeur de ces échantillons très proches (plutôt que d’avoir que des valeurs égales).
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 6
On utilise essentiellement 2 lois de correspondance :
La loi en Amérique du Nord : 128 valeurs d’échantillons positives La loi A en Europe : 128 valeurs d’échantillons positives + 128 négatives, soit
256 valeurs
Ces deux lois sont de type semi-logarithmique, garantissant ainsi une précision à peu
près constante :
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 7
2.3 Compression - codage
Dans le but de transporter les données numériques précédentes, on réalise un
traitement du signal, par de purs algorithmes mathématiques.
La compression/codage permet de coder des échantillons, issus de la quantification de
N1 bits en échantillons de N2 bits, avec N2 < N1, afin de réduire le débit en ligne.
Il existe des codages :
HBR ( Hight Bit Rate Codec ) = codecs haut débit
LBR ( Low Bit Rate Codec ) = codecs bas débits.
o Remarque : Si les codecs LBR permettent de réduire la bande passante allouée
au trafic de la voix, ils induisent aussi une distorsion du signal et des
problèmes d’écho.
o Débit de différents codecs :
codec G.711 G.726 G.728 G.729 G.729a G.723.1
Débit(Kbits/s) 64 32 16/24/32/40 8 8 5,3/6,3
2.4 Suppression des silences
Pour optimiser la bande passante, il ne faut pas transmettre les silences.
Par contre, les utilisateurs doivent toujours avoir l’impression d’être en conversation.
La VAD (Voice Activity Detection) permet, en cas de silence de ne pas les
transmettre, mais de générer à leur place, côté réception, un bruit de confort.
2.5 Paquétisation - ajout des en-têtes
La voix est transporté au dessus d’IP, en mode non connecté (plus rapide) via UDP( User Data Protocol).
Le protocole utilisé pour transporter les échantillons de voix téléphonique est RTP (Real-time Transport Protocol)
RTP
UDP
IP
Data link
Physical
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 8
Par défaut, le segment RTP contenu dans le paquet IP contient un nombre
d’échantillons équivalents à 20 ms de voix, mais cette valeur peut être modifiée
jusqu’à 200ms au maximum.
L’en-tête contient :
Les adresses IP (source et destination)
Le n° de port UDP afin d’identifier les applications émettrice et réceptrice
Dans le champ RTP, les informations nécessaires à la restitution du signal voix.
3. Transport de la voix
Deux protocoles sont utilisés pour le transport des flux en temps réel : RTP et RTCP.
Les connexions RTP et RTCP sont établies par un protocole supplémentaire de signalisation : H245, SIP…
3.1 RTP
RTP = Real-time Transport Protocol
RTP fournit les services suivants :
Distingue les différentes sources, lors d’envoi de trames de multidiffusion
Maintient la distribution en temps réel des paquets
Assure la synchronisation des flux voix
Séquence les paquets afin d’identifier, à la réception, une perte éventuelle
Identifie les types de codecs
Contrôle le multipoint (conversation à plusieurs)
en-tête charge utile
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 9
RTP ne fournit pas la QoS (Qualité de Service)
3.2 RTCP
RTP = Real-time Transport Control Protocol
RTCP fournit les services suivants :
Transmet les paquets de contrôle aux participants à un appel.
Rend compte de la qualité du service fourni par le RTP en fournissant des
informations de supervision relatives à la gigue et au taux de perte des
paquets.
Contrôle la session. RTCP permet aux participants d'indiquer, par exemple, leur
départ d'une conférence téléphonique (paquet Bye)
4. Qualité de réception de la parole téléphonique Plusieurs paramètres influent sur la qualité de la voix :
Le traitement de la voix (qualité de codage)
Le délai de transmission
La gigue
Le phénomène d’écho
La perte des paquets
4.1 Qualité du codec
Souvent, les techniques de codage offrant de faibles débits (codec LBR), augmentent
le délai de transmission.
Pour caractériser la qualité du codeur, il existe le critère de notation MOS ( Mean Opinion Score – note moyenne d’opinion), qui classe les codecs en 5 classes :
1 = Mauvais
2 = Médiocre
3 = Moyen, assez bon
4 = Bon
5 = Excellent
4.1.1 Le MOS de différents codecs
codec G.711 G.726 G.728 G.729 G.729a G.723.1
MOS 4.1 3.85 3.61 3.92 3.9 3.9
4.1.2 Taille des paquets
La bande passante utilisée sur le réseau, pour le transport de la parole téléphonique,
ne dépend pas uniquement du choix du codec, mais aussi de la taille des paquets de
voix.
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 10
Ainsi, pour un même temps de parole à transmettre, si l’on utilise :
des petits paquets de voix :
Il ya un plus grand nombre de paquets à transmettre
donc plus d’en-tête à transmettre
donc la BP utilisée est plus importante
par contre le temps d’acheminement de chaque paquet est plus court.
de grands paquets de voix :
Il ya un plus petit nombre de paquets à transmettre
donc moins d’en-tête à transmettre
donc la BP utilisée est moins importante
par contre le temps d’acheminement de chaque paquet est plus long.
Donc, il faut un bon compromis entre la taille des paquets à transmettre et le délai nécessaire pour cette transmission.
4.1.3 Bande passante utilisée par différents codecs
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 11
4.2 Délai de transmission
Le délai de transmission est le temps écoulé entre l’émission de la parole et sa
restitution à l’arrivée.
Dans le cas de la VOIP, par exemple, il est donc la somme des opérations suivantes :
o Codage/Paquétisation de la voix o Traversée du terminal
(téléphone ou PC) o Traversée du modem et de la
passerelle o Traversée du réseau IP o Traversée du modem et de la
passerelle o Traversée du terminal
(téléphone ou PC) o Décodage/Dépaquétisation de
la voix
Pour permettre un échange interactif, la voix doit être transmise avec des
contraintes de délai.
L’UIT-T, indique qu’un délai de transmission des paquets de voix :
de 0 à 150 ms = est acceptable pour la plupart des conversations
de 150 à 300 ms = est acceptable pour des conversations faiblement
interactives
de 300 à 700ms = devient pratiquement une conversation half-duplex (talkie-
walkie)
au-delà de 700ms = inutilisable sans une bonne pratique de la conversation half-
duplex.
4.3 Gigue (jitter)
La gigue est la variation du délai de transmission.
Comme les différents paquets de voix n’empruntent pas forcément le même chemin,
ils subissent inévitablement des délais de transmission variables, le récepteur ne peut
pas simplement reproduire le signal, au moment de l’arrivée du paquet. Pour égaliser
les variations de la gigue, on utilise un tampon de lissage (jitter buffer). La
reproduction de la voix se fait par lecture, à partir du tampon de lissage, et non plus à
partir du réseau, en temps réel :
SYNTHESE CODAGE ET TRANSPORT DE LA VOIX SUR IP
auteur : L.Burri 12
L’inconvénient est que l’utilisation de ce tampon de lissage introduit un délai supplémentaire et augmente donc le délai de transmission.
4.4 Phénomène d’écho
o Echo côté locuteur : perception par le locuteur de sa propre voix, décalée dans
le temps.
o Echo côté auditeur : lorsque la parole du locuteur est réfléchie deux fois,
l’auditeur entend la voix du locuteur deux fois : un signal fort et clair, suivi d’un
signal très atténué et fortement décalé.
4.5 Perte des paquets
Pour combattre les effets des pertes de paquets, les terminaux peuvent utiliser des
techniques de
Redondance = au départ, on envoie périodiquement de paquets contenant un
« résumé » des N paquets précédents cela augmente le délai de
transmission. Masquage : à l’arrivée, on remplace le paquet manquant avec les données des
paquets qui précèdent et qui suivent le paquet perdu.
Pour avoir une qualité de parole acceptable, le taux de parte de paquets doit être
inférieur à 5%.
5. Sources « Cours réseaux et télécoms » de Guy Pujolle, aux éditions Eyrolles Diaporama « voix et téléphonie sur IP » de Learneo (Avril 2005)