CHAPITRE 2 LA THEORIE DU PRODUCTEUR Ch.2 - La théorie du producteur1.
theorie de l'information: chapitre 3
Transcript of theorie de l'information: chapitre 3
-
7/31/2019 theorie de l'information: chapitre 3
1/5
Thorie de linformation
1
Chapitre 3 : Mesure de linformation
Un message reu n'apporte de l'information que si son contenu n'est pas connu l'avance de
son destinataire. Par exemple, si je connais le prochain bit recevoir, je n'ai pas besoin de le
recevoir.
On va supposer que l'ensemble de tous les messages possibles est fini. Alors fournir une
information c'est lever l'incertitude l'issue d'une exprience alatoire.
Cette incertitude peut varier pour un mme vnement si on a connaissance d'une autre
information : pour 2 vnementsEet F, si
- p(E/F) < p(E) alors l'incertitude surEaugmente si on sait que Fs'est ralis- p(E/F) =p(E) alorsEet Fsont indpendants, l'information apporte par Fn'influence
pas l'incertitude sur la survenue deE
- p(E/F) > p(E) alorsEdevient plus probable si on sait que Fs'est ralisL'ide de Shannon est de quantifier cette donne sachant que plus le contenu du message est
rare plus l'information apporte est importante. A contrario, si on est sr de recevoir un
certain message il n'apporte aucune information et la mesure de l'information apporte devra
alors tre nulle.
On voit alors qu'il y a un lien entre la probabilit de recevoir une information et la mesure que
l'on veut en donner : ce lien que l'on cherche tablir doit respecter les ides ci-dessus.
De plus on souhaite que la quantit d'information apporte par 2 vnements indpendants
soit la somme des quantits d'information apportes par chacun.
Rappel : siEet Fsont 2 vnements la probabilit conditionnelle est gale
p(E/F) =p(E F) /p(F)
Eet Fsont indpendants si et seulement si p(E F) =p(E)p(F) ce qui quivaut
p(E/F) =p(E)
3.1 Quantit dinformation
Dfinition 2.1 Soit E un vnement. On appelle quantit d'information de E la valeur
O p(E) est la probabilit de E
On remarque que la fonction I vrifie bien les requis exprims plus haut : si p(E) diminue,
I(E) augmente et si p(E) = 1 alors I(E) = 0.
Le choix du logarithme en base 2 n'est pas anodin : dfinissons le bit (binary unit) comme la
quantit d'information apporte par le choix entre deux valeurs quiprobables.
-
7/31/2019 theorie de l'information: chapitre 3
2/5
Thorie de linformation
2
Donc, si on a une variable E qui prend deux valeurs quiprobables (par exemple pile ou face
pour une pice non truque) alors la quantit d'information apporte par la ralisation de {E =
pile} est de 1 bit par dfinition du bit. Et on a bien 1 = -log2 1/2
L'unit de quantit d'information est le bit.
Pour reprsenter une information de n bits, il faut alors n symboles binaires.
Par exemple, si on 16 valeurs possibles quiprobables, alors une valeur a une quantit d'in-
formation gal 4 et il faut 4 bits (binary digit) pour reprsenter toutes les valeurs. Mais ce ne
sera pas toujours le cas si la distribution de probabilit est ingale.
On montre maintenant que cette dfinition rpond l'additivit requise pour I.
Proprit 2.1 Si E et F sont 2 vnements indpendants alors I(E F) = I(E) + I(F). La
quantit d'informations apportes par 2 vnements indpendants est la somme de leurs
quantits d'information respectives.
preuve : I(E F) = -log2 p(E F) = -log2 p(E) p(F) = -log2 p(E) -log2 p(F) = I(E)+ I(F)
Exemple 2.1 :
Soit un jeu de 32 cartes dans lequel on effectue des tirages et les vnements
E = {la carte tire est un valet de cur} et F = {la carte tire est un cur}
On a pour E, p(E) = 1/32 et I(E) = 5, et pour F, p(F) = 1/4 et I(F) = 2.
E et F ne sont pas indpendants car p(E/F) = p(EF) / p(F) = (1/32)/(1/4) = 1/8
Cela nous mne dfinir l'information mutuelle pour 2 vnements.
3.2 Information mutuelle
On veut mesurer l'apport d'information de l'vnement F sur l'vnement E. Si la ralisation
de F augment la probabilit de ralisation de E on veut que cette mesure soit positive et
inversement si F augmente l'incertitude sur E cette mesure doit tre ngative. Enfin si les deux
vnements sont indpendants cette mesure doit tre nulle.
Dfinition 2.2 Soient E et F 2 vnements. L'information apporte par F sur E est dfini par
Contrairement la quantit d'information, l'information mutuelle n'est pas toujours un rel
positif.
-
7/31/2019 theorie de l'information: chapitre 3
3/5
Thorie de linformation
3
On notera alors I(F E) = I(E, F) = I(F,E) et on l'appellera information mutuelle entre
E et F.
On remarque que si
- I(E, F) > 0 alors la ralisation d'un des 2 vnements augmente la probabilit del'autre (diminue son incertitude)- I(E ; F) = 0 alors E et F sont indpendants, l'information mutuelle est nulle- I(E, F) < 0 alors la ralisation d'un des 2 vnements diminue la probabilit de l'autre
(augmente son incertitude)
- p(E F) = 0 alors la ralisation d'un des 2 vnements rend impossible la ralisationde l'autre et I(E, F) = -
La proprit suivante tablit un lien entre la quantit d'information et l'information mutuelle.
Proprit 2.3 I(EF) = I(E) + I(F) - I(E, F)
3.3 Entropie
3.3.1 Entropie d'une variable alatoire
Prenons l'exemple d'un d. On voudrait connatre comme contenu d'information la valeur du
d aprs un lancer. Soit alors X la variable alatoire valeurs dans {1, 2, 3, 4, 5, 6}. X peut
prendre 6 valeurs et si le d n'est pas truqu, les valeurs sont quiprobables. Donc chaque
valeur correspond une quantit d'information de 2,58 bits (= -log2(1/6))
Mais supposons maintenant que le d soit truqu et que la valeur 6 sorte avec une probabilit
0,5 et que les autres valeurs soient quiprobables. La quantit d'information pour chaque
valeur n'est pas la mme et pour avoir une vision globale on peut tre intress connatre
l'information moyenne soit l'esprance de I(X).
Elle vaut ici :
Dfinition 2.3 On appelle entropie de X l'esprance de I(X) note H(X).
- H(X) est un rel positif comme I(X = x).- H(X) correspond au nombre moyen d'lments binaires pour coder les diffrentes
valeurs de X.
- H(X) n'est fonction que de la loi de probabilit de X, pas des valeurs prises par X.Exemple 2.2 : pour un jeu de 32 cartes, on dfinit la variable alatoire X par X = 0 si la carteest rouge, X = 1 si la carte est un pique et X = 2 si la carte est un trfle. On a alors
-
7/31/2019 theorie de l'information: chapitre 3
4/5
Thorie de linformation
4
H(X) = -( log2 + log2 + log2 ) = + 2 + 2 = 1,5 bits
Le rsultat suivant aura pour consquence de pouvoir mesurer l'efficacit d'un code
Thorme 2.4 H(X) < = - log2 n si X prend n valeurs.
H(X) = - log2 n si et seulement si X a une loi uniforme
(c'est--dire p(X = x) = 1/n pour tout x).
Proprit 2.5 L'entropie augmente lorsque le nombre de valeurs possibles augmente.
3.3.2 Entropie conditionnelle
Soient X; Y 2 variables alatoires discrtes.
Dfinition 2.4 On appelle entropie de X conditionnelle Y = y
On a alors :
Dfinition 2.5 On appelle entropie de X sachant Y
Enfin on dfinit l'entropie mutuelle comme l'entropie d'un couple de variables alatoires
Dfinition 2.6 On appelle entropie mutuelle de X, Y
Entropie de X sachant Y et entropie mutuelle sont deux valeurs positives. Le lien entre
entropie mutuelle et conditionnelle est donne par
Proprit 2.6 H(X, Y) = H(X) + H (Y/X) = H(Y ) + H(X/Y )
Pour quantifier l'apport d'information X fournie par Y, on mesure la diffrence entre
l'entropie de X (l'information moyenne de X) et l'entropie conditionnelle de X sachant Y, soit
H(X)-H(X/Y).
Il est facile de montrer que H(X)-H(X/Y) = H(Y)-H (Y/X) c'est--dire ce que Y apporte X
est gal ce que X peut apporter Y .
-
7/31/2019 theorie de l'information: chapitre 3
5/5
Thorie de linformation
5
En effet H(X)-H(X/Y ) = H(X,Y )-H(Y/X)-H(X=Y ) d'aprs la proposition prcdente.
En l'appliquant de nouveau on dduit H(X) - H(X/Y) = H(Y) - H (Y/X).
On peut montrer que cette quantit est gale l'esprance de I(X = x, Y = y) dfini plus haut
comme information mutuelle.
O I(X ; Y) est l'esprance de I(X = x, Y = y)
On peut montrer aussi que cette esprance est toujours positive contrairement l'information
mutuelle.
Proprit 2.7 I(X; Y) >= 0
Remarque : si X et Y sont indpendants alors I(X, Y) = 0.
On dduit de ce rsultat
Proprit 2.8 H(X/Y)