Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de...

23
1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de A. Quidelleur, SRC1 Meaux 2007-2008 La théorie de la communication de C. Shannon Quantité d’information d’une source Codage de source pour TX le moins de bits possibles Codage de canal pour assurer une réception sans faute Ingénieur à Bell Labs. Publie en 1949, avec W. Weaver « Mathematical Theory of Communications » qui étudie trois aspects d’un système de communications: Source émetteur canal récepteur destination message Signal émis Signal reçu message Codage/modulation Démodulation/décodage bruit

Transcript of Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de...

Page 1: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

1

Principes de communications II

MIC42401

Chapitre 12 Théorie de l’information et

Codage

Adapté de A. Quidelleur, SRC1 Meaux 2007-2008

La théorie de la communication

de C. Shannon

• Quantité d’information d’une source

• Codage de source pour TX le moins de bits possibles

• Codage de canal pour assurer une réception sans faute 

• Ingénieur à Bell Labs. • Publie en 1949, avec W. Weaver « Mathematical Theory of

Communications » qui étudie trois aspects d’un système de communications:

Source émetteur canal récepteur destination

message Signal émis Signal reçu message

Codage/modulation Démodulation/décodagebruit

Page 2: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

2

« Théorie de l’information » ???

• Dans le langage courant, « information » est utilisé dans divers contextes : actualités, renseignements, etc.

• Dans le domaine des télécommunications, la notion d’information est reliée à l’efficacité des systèmes de communication

• Shannon montre que l’information contenue dans un message est une grandeur mesurable

• La théorie de l’information touche plusieurs domaines

• le codage,

• la compression de données, 

• la cryptographie. 

Quantité d’information et entropie d’une source

4

Page 3: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

3

Contenu informatif d’un message

• Pour un codage efficace d’un message en une suite de 0 et de 1, il est nécessaire de déterminer son contenu informatif

• Exemple• La source transmet toujours la même message, consistant en la lettre A : Le  contenu informatif de ce message est nul, car le récepteur n’apprend rien en le recevant

• La source émet soit oui, soit non : le récepteur reçoit une information binaire. 

• La source émet le temps qu’il fera demain : le contenu informatif est très riche, et l’information transmise est m‐aire s’il y a m possibilités de temps.

• Un message est « riche » en information si sa connaissance mène à un système plus « prévisible »• Cas d’un message qui peut prendre beaucoup de valeurs différentes.

5

Contenu informatif d’un message et codage

• En télécommunication, on veut toujours économiser le nombre de bits transmis pour

• Gagner du temps (ex. : téléchargement rapide d’une page web sur Internet)

• Faire passer le plus de messages possibles sur un même support (ex. : plusieurs utilisateurs sur la même fibre optique).

Influence directe sur le coût des transmissions…!

• Ainsi, on souhaiterait coder l’information pertinente du message et elle seule !

• Mais comment mesurer le contenu informatif d’un message ? La Théorie de l’Information fournit une mesure de la quantité d’information.

6

Page 4: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

4

7

Incertitude, Information et Entropie

Définitions– Source discrète : système émettant régulièrement des symboles

issus d’un alphabet fini.

– Alphabet : ensemble fini des symboles de la source.

– Source aléatoire : les symboles sont émis aléatoirement suivantles probabilités :

– Source sans mémoire : source aléatoire dont les symboles émissont statistiquement indépendants.

1 avec1,,1,0 ; 1

0

K

kkkk pKkpsSP

110 ,,, KsssA

8

Définition : 

la quantité d’information gagnée à l’observation de l’évènement S = sk , de probabilité pk , est définie par :

I (sk) = – log pk

Propriétés :

• I (sk) = 0  pour  pk = 1 ;

• I (sk) >= 0  pour  0 <= pk  <= 1 ;

• I (sk) > I (si) pour   pk  < pi   ;

• I (sk sl) = I (sk) + I (sl) si sk et sl sont statistiquement indépendants.

Si pk = 1/2, alors I (sk) = 1 bit

Incertitude, Information et Entropie

Page 5: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

5

Entropie d’une source

• Considérons une source pouvant émettre N messages différents. Notons pi la probabilité d’émission du message mi.

• On appelle entropie de la source S l’espérance mathématique de I (sk) prise comme variable aléatoire

• L’entropie fournit une mesure de la quantité d’information moyenne par symbole issue de la source, exprimée en bit/symbole.

9

Source d’information

Symbole s1, probabilité p1

Symbole s2, probabilité p2

Symbole s3, probabilité p3

Symbole sN, probabilité pN

N

k kk

N

kkk p

pppSH1

21

2

1loglog

Exemples

• On considère une source émettant des symboles successifs égaux à 0 ou 1. La probabilité du 1 est 0,3. Celle du 0 vaut 0,7. Calculez son entropie.

• La source considérée transmet le résultat d’un lancé de dé truqué : P(1)=P(6) = 0,2 ; P(2)=P(3)=P(4)=P(5) = 0,15. Calculez son entropie.

• Calculez l’entropie de la source si le dé n’est pas truqué.

10

sh88,03,0log3,07,0log7,0SH 22

sh571,2

15,0log15,042,0log2,02SH 22

sh585,261log

616SH

616P5P4P3P2P1P

2

L’entropie est plus grande quand les messages sont équiprobables.

Page 6: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

6

Cas de messages équiprobables

• Calculons l’entropie d’une source pouvant émettre N messages équiprobables. 

• La probabilité de chacun des messages est 1/N.

• On retiendra cette formule :

11

NlogN1log

N1log

N1N

N1log

N1

N1log

N1

N1log

N1SH

222

foisN

222

NlogSH 2 pour N messages équiprobables

Exemples

• Exemple 1

On considère une source transmettant toujours le même message, la lettre A.

• Analyse intuitiveQu’apprend le récepteur par cette source ? Rien, puisque le message est toujours le même ! Cette source ne produit aucune information utile. 

• Analyse par la théorie de l’information

Le résultat de l’expérience est toujours le même (lettre A). Le message peut prendre une seule valeur possible : N=1

Par définition la quantité d’information (l’entropie) associée à cette expérience est log2(1) = 0

12

Page 7: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

7

Exemples

• Exemple 2

On considère une source pouvant transmettre deux valeurs : oui/non. Les résultats sont équiprobables.

• Analyse intuitive

Qu’apprend le récepteur par cette source ? Quand la source émet un message, le 

récepteur reçoit une seule information : soit le résultat est oui, soit il vaut non.

• Analyse par la théorie de l’information

Deux résultats existent : « oui » et « non ». Ces résultats sont équiprobables. 

Par définition la quantité d’information (l’entropie) associée à cette expérience 

est log2(2) = 1.

13

Exemples

• Exemple 3

On considère une source pouvant transmettre trois valeurs : oui/non/je ne sais pas. Les résultats sont équiprobables.

• Analyse intuitive

Trois résultats différents peuvent se produire. Le message émis par cette source 

est « plus riche » en information que la source de l’exemple 2. On peut dire que la 

quantité d’information de cette expérience est supérieure à la précédente.

• Analyse par la théorie de l’information

Trois résultats existent : « oui » et « non », « je ne sais pas ». Ces résultats sont 

équiprobables. 

Par définition la quantité d’information associée à cette expérience est log2(3) = 

1,58. 

14

Page 8: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

8

Conclusion

• La théorie de l’information fournit un modèle mathématique permettant de 

quantifier l’information émise par la source d’une communication.

• Constat 1 : Plus les résultats d’une expérience peuvent prendre de valeurs différentes, plus la quantité d’information mesurée est élevée.

• Intuitivement, ce résultat est logique. Une source pouvant transmettre beaucoup 

de messages différents fournit plus d’information qu’une source transmettant une 

seule valeur.

• Constat 2 : Lorsqu’une source peut produire beaucoup de valeurs différentes, l’incertitude quant au résultat de l’expérience est élevée. Or la quantité 

d’information transmise est d’autant plus grande que le nombre de résultats 

possibles est différent.

La quantité d’information reçue est d’autant plus importante que l’incertitude         

est grande !

15

Propriété de l’entropie

L’entropie d’une source S pouvant produire N messages différents est maximale lorsque les messages sont équiprobables.

• Ce qui signifie que la quantité d’information est maximale lorsqu’on a le plus de difficulté à prévoir le résultat.

• Exemple : La source émet deux symboles : A et B

Cas 1 : La lettre A a « plus de chance » d’être reçue que B. On a moins d’information que dans le cas 2, où on est incapable de prévoir la lettre reçue.

16

P(A) P(B) H(S)Cas 1 0,8 0,2 0,722Cas 2 0,5 0,5 1

Page 9: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

9

Système de communication : codage de source et codage de canal• Maintenant que nous savons mesurer l’information contenue dans un message, nous pouvons le coder. 

• Le codage de source représente le message sous la forme la plus économique possible en terme de nombre de bits

• Le codage de canal ajoute des informations permettant au récepteur de reconstituer le message malgré les erreurs éventuellement apparues à cause du bruit sur le canal. 17

Le codage de source

18

Page 10: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

10

Enjeu du codage de source

• Le but du codage de source est de trouver une traduction binaire des messages émis par la source économisant les bits et tenant compte de leur contenu informatif.

• Par exemple, si la source émet 

• la lettre A avec la probabilité 0,8, • et les lettres B, C, D et E avec la probabilité 0,05,

on sent intuitivement qu’il vaut mieux coder A avec peu de bits, car cette lettre revient souvent, tandis que B, C, D et E peuvent être codées sur un plus grand nombre de bits.

19

Capacité d’un canal

• En pratique, le débit binaire autorisé sur un canal est limité (influence du bruit, nature du support, etc. …).

• Le débit le plus élevé auquel on peut transmettre sur un canal, quel que soit le message produit par la source, est appelé la capacité C du canal.

20

Page 11: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

11

Théorème de Shannon

• Shannon a montré qu’on peut toujours trouver un codage de source permettant de transmettre à la capacité du canal si le débit Ds des symboles émis par la source et l’entropie de la source vérifient

H(S)Ds C

Pb : il ne dit pas comment le trouver !

• Exemple : On considère une source émettant les lettres A, B, C, D et E avec les probabilités pA = 0,8 et pB = pC = pD = pE = 0,05. Les lettres sont émises au débit Ds = 106 lettres/s. Le canal a une capacité C = 2 Mbit/s.

• Entropie de la source : H(S) = 1,12 sh

• H(S)Ds = 1,12.106 < 2.106 

• Donc il existe un code permettant de transmettre ces lettres sur le canal.

21

Exemple de recherche d’un codage de source

• On considère une source mettant 800 lettres par minute• Des lettres A avec une probabilité pA = 0,8

• Des lettres B avec une probabilité pB = 0,2

• Le canal utilisé présente un débit binaire Db = 10 bit/s

• 1er essai : Codage direct

• On choisit par exempleLettre A  0 Lettre B  1

• Longueur moyenne des mots du code : Lmoy = 1bit/lettre

• Le débit binaire nécessaire sur le canal est alors 13,33 bit/s.

• Ce code ne convient donc pas.

22

Page 12: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

12

Exemple de recherche d’un codage de source

• 2ème essai : Codage fractionné• On regroupe les lettres 2 par 2 et on code chaque groupe de lettres par un nombre de bits qui décroît selon la probabilité d’apparition du groupe de lettres (méthode de Fano).

• Lmoy = 0,78 bit/lettre• Débit nécessaire sur le canal : 13,330,78 = 10,4 bit/s.• Ce codage ne convient pas. Cependant, il est meilleur que le précédent.

23

Groupement de lettres Probabilités Codage

Nombre pondéré de

bitsAA 0,64 0 0,64AB 0,16 10 0,32BA 0,16 110 0,48BB 0,04 111 0,12

1,56

Exemple de recherche d’un codage de source

• 3ème essai : Codage fractionné

• On regroupe cette fois les lettres 3 par 3.

• Lmoy = 0,728 bit/lettre• Débit nécessaire sur le canal : 13,330,728 = 9,7 bit/s. Ce code convient. 24

Groupement de lettres Probabilités Codage

Nombre pondéré de

bitsAAA 51,20% 0 0,512AAB 12,80% 100 0,384ABA 12,80% 101 0,384BAA 12,80% 110 0,384ABB 3,20% 11100 0,160BAB 3,20% 11101 0,160BBA 3,20% 11110 0,160BBB 0,80% 11111 0,040

2,184

Page 13: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

13

Exemple de codage de source : La méthode de Fano

• La méthode de Fano fournit un codage binaire instantané (i.e. décodable à la volée). Elle est proche de la méthode de Huffman, utilisée dans les compressions JPEG et MPEG notamment (voir cours SRC2).

• La méthode de Fano permet d’attribuer peu de bits aux messages qui reviennent le plus souvent. Les messages les plus rares sont codés par plus de bits. On parle de codage à longueur variable ou RLE (Run Length Encoding) ou code entropique.

25

Mode opératoire de la méthode de Fano

1. Classer les messages de la source dans l’ordre des probabilités décroissantes.

2. Diviser l’ensemble des messages en deux groupes de probabilités aussi proches que possibles et• Attribuer 0 par exemple au premier

• Attribuer 1 au second.

3. Recommencer les subdivisions successivement.

26

Page 14: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

14

Exemple

• On reprend l’exemple précédent. La source émet les lettres A et B avec les probabilités pA=0,8 et pB=0,2. On groupe les lettres 3 par 3.

27

messages probabilités probabilités regroupées 1er bit

AAA 51,20% 51,20% 0AAB 12,80% 1ABA 12,80% 1BAA 12,80% 1ABB 3,20% 1BAB 3,20% 1BBA 3,20% 1BBB 0,80% 1

48,80%

1er regroupement

Exemple

28

messages probabilités probabilités regroupées 1er bit 2ème

bitAAA 51,20% 0AAB 12,80% 1 0ABA 12,80% 1 0BAA 12,80% 1 1ABB 3,20% 1 1BAB 3,20% 1 1BBA 3,20% 1 1BBB 0,80% 1 1

24,80%

24,00%

2ème regroupement

Page 15: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

15

Exemple

29

messages probabilités probabilités regroupées 1er bit 2ème

bit3ème

bitAAA 51,20% 0AAB 12,80% 12,80% 1 0 0ABA 12,80% 12,80% 1 0 1BAA 12,80% 12,80% 1 1 0ABB 3,20% 1 1 1BAB 3,20% 1 1 1BBA 3,20% 1 1 1BBB 0,80% 1 1 1

10,40%

3ème regroupement

Deux sous-regroupements

Exemple

30

messages probabilités probabilités regroupées 1er bit 2ème

bit3ème

bit4ème

bitAAA 51,20% 0AAB 12,80% 1 0 0ABA 12,80% 1 0 1BAA 12,80% 1 1 0ABB 3,20% 1 1 1 0BAB 3,20% 1 1 1 0BBA 3,20% 1 1 1 1BBB 0,80% 1 1 1 14%

6,40%

4ème regroupement

Page 16: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

16

Exemple

31

messages probabilités probabilités regroupées 1er bit 2ème

bit3ème

bit4ème

bit5ème

bitAAA 51,20% 0AAB 12,80% 1 0 0ABA 12,80% 1 0 1BAA 12,80% 1 1 0ABB 3,20% 3,20% 1 1 1 0 0BAB 3,20% 3,20% 1 1 1 0 1BBA 3,20% 3% 1 1 1 1 0BBB 0,80% 0,80% 1 1 1 1 1

5ème regroupement

Exemple

32

Messages ProbabilitésAAA 51,20% 0AAB 12,80% 1 0 0ABA 12,80% 1 0 1BAA 12,80% 1 1 0ABB 3,20% 1 1 1 0 0BAB 3,20% 1 1 1 0 1BBA 3,20% 1 1 1 1 0BBB 0,80% 1 1 1 1 1

Code

Prob

abilit

és d

écro

issan

tes

Long

ueur

cro

issan

te

Page 17: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

17

Intérêt pour le décodage

• Le code de Fano est un code à décodage direct.

• Il n’y a pas d’ambiguïté au décodage car aucun mot n’est la début d’un autre mot.

33

Introduction au codage de canal

34

Page 18: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

18

Enjeu du codage de canal

• Le codage de canal rajoute de l’information pour permettre au récepteur de détecter ou corriger les erreurs éventuellement apparues.

• Comment le récepteur lit‐il les données reçues ?• Il échantillonne le signal physique reçu à intervalle de temps fixe, au milieu du bit. Suivant le niveau de tension lu, il déduit la valeur du bit : 0 ou 1.

35

Horloge

0V5VSignal électrique

reçu

0 1 1 1 1 1 10 0 0Message reconstitué

Enjeu du codage de canal

• D’où viennent les erreurs ? 

Théorie de l'Information 36

Conclusion : Puisque le récepteur ne peut se fier au signal électrique reçu, on va rajouter des bits dans les messages qui permettront de repérer les erreurs.

Le signal est déformé sur le canal : l’échantillonnage peut se faire sur une perturbation.

Pic de bruit

A l’échantillonnage, le récepteur interprète le niveau de tension comme un 0.

Page 19: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

19

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

0codage

1

0 000codage

1 111

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

Page 20: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

20

0 000codage

1 111

Transmission

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

0 000codage

1 111

Transmission

erreurs(2ème principe)

010

110

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

Page 21: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

21

0 000codage

1 111

Transmission

erreurs(2ème principe)

010

110

Reconstruction

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

0 000codage

1 111

Transmission

erreurs(2ème principe)

010

110

Reconstruction

à réception (correction)

000

111

Transmettre• La théorie du codage utilise la redondance pour

transmettre les bitsd’information

Page 22: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

22

Détection/correction d’erreur

• Certains codes permettent de détecter des erreurs, d’autres de détecter et corriger les erreurs.

• La correction d’erreur contraint à ajouter plus de bits que la détection d’erreur.

•Par conséquent, on adopte un code correcteur d’erreur quand on ne peut pas retransmettre les messages :• Transmission dans un seul sens (émission TV)• Transmission satellite (la retransmission prend du temps)• Transmission en temps réel.

43

• Inutile, pour annuler les erreurs, d’accroître indéfiniment la redondance, ( débit de transmission  0 )

• On ne peut pas avoir de transmission sans erreur si Es  C, 

• le code  idéal, assurant EsY = min(Es ‐ C), n’a pas été trouvé !

• cas particulier du canal AGB à bande limitée B pour une puissance d'émission PS :

C= B log₂(1 +PS /PB).

44

Capacité d’un canal de communications

Page 23: Chapitre 12 Théorie de l’information et Codageboukadoum_m/MIC4240/Notes...1 Principes de communications II MIC4240 1 Chapitre 12 Théorie de l’information et Codage Adapté de

23

Conclusion

• Le codage de source permet de transmettre le contenu 

informatif du message en économisant les bits.

• Le codage de canal rajoute au message des bits qui seront 

utilisés par un algorithme de réception pour déterminer 

s’il y a des erreurs et les corriger éventuellement.

• Paradoxalement, le codage de canal ajoute de la 

redondance, alors que le codage de source a pour tâche 

de l’éliminer ! 

• Prix à payer pour garantir la qualité de la communication.

• La solution  au dilemme est de bien connaître le canal afin de 

ne rajouter que les bits strictement nécessaires.

45

Bibliographie

« Théorie de l’Information », R. Beauvillain, ENSEA, support de 

cours, 1998.

http://encyclopedie.snyke.com/

« Théorie de l’Information et Codage », M. P. Béal (université de 

Marne La Vallée) & Nicolas Sendrier (INRIA), mars 2004

46