theorie de l'information: chapitre 3

7/31/2019 theorie de l'information: chapitre 3

1/5

Thorie de linformation

1

Chapitre 3 : Mesure de linformation

Un message reu n'apporte de l'information que si son contenu n'est pas connu l'avance de

son destinataire. Par exemple, si je connais le prochain bit recevoir, je n'ai pas besoin de le

recevoir.

On va supposer que l'ensemble de tous les messages possibles est fini. Alors fournir une

information c'est lever l'incertitude l'issue d'une exprience alatoire.

Cette incertitude peut varier pour un mme vnement si on a connaissance d'une autre

information : pour 2 vnementsEet F, si

- p(E/F) < p(E) alors l'incertitude surEaugmente si on sait que Fs'est ralis- p(E/F) =p(E) alorsEet Fsont indpendants, l'information apporte par Fn'influence

pas l'incertitude sur la survenue deE

- p(E/F) > p(E) alorsEdevient plus probable si on sait que Fs'est ralisL'ide de Shannon est de quantifier cette donne sachant que plus le contenu du message est

rare plus l'information apporte est importante. A contrario, si on est sr de recevoir un

certain message il n'apporte aucune information et la mesure de l'information apporte devra

alors tre nulle.

On voit alors qu'il y a un lien entre la probabilit de recevoir une information et la mesure que

l'on veut en donner : ce lien que l'on cherche tablir doit respecter les ides ci-dessus.

De plus on souhaite que la quantit d'information apporte par 2 vnements indpendants

soit la somme des quantits d'information apportes par chacun.

Rappel : siEet Fsont 2 vnements la probabilit conditionnelle est gale

p(E/F) =p(E F) /p(F)

Eet Fsont indpendants si et seulement si p(E F) =p(E)p(F) ce qui quivaut

p(E/F) =p(E)

3.1 Quantit dinformation

Dfinition 2.1 Soit E un vnement. On appelle quantit d'information de E la valeur

O p(E) est la probabilit de E

On remarque que la fonction I vrifie bien les requis exprims plus haut : si p(E) diminue,

I(E) augmente et si p(E) = 1 alors I(E) = 0.

Le choix du logarithme en base 2 n'est pas anodin : dfinissons le bit (binary unit) comme la

quantit d'information apporte par le choix entre deux valeurs quiprobables.


2/5


2

Donc, si on a une variable E qui prend deux valeurs quiprobables (par exemple pile ou face

pour une pice non truque) alors la quantit d'information apporte par la ralisation de {E =

pile} est de 1 bit par dfinition du bit. Et on a bien 1 = -log2 1/2

L'unit de quantit d'information est le bit.

Pour reprsenter une information de n bits, il faut alors n symboles binaires.

Par exemple, si on 16 valeurs possibles quiprobables, alors une valeur a une quantit d'in-

formation gal 4 et il faut 4 bits (binary digit) pour reprsenter toutes les valeurs. Mais ce ne

sera pas toujours le cas si la distribution de probabilit est ingale.

On montre maintenant que cette dfinition rpond l'additivit requise pour I.

Proprit 2.1 Si E et F sont 2 vnements indpendants alors I(E F) = I(E) + I(F). La

quantit d'informations apportes par 2 vnements indpendants est la somme de leurs

quantits d'information respectives.

preuve : I(E F) = -log2 p(E F) = -log2 p(E) p(F) = -log2 p(E) -log2 p(F) = I(E)+ I(F)

Exemple 2.1 :

Soit un jeu de 32 cartes dans lequel on effectue des tirages et les vnements

E = {la carte tire est un valet de cur} et F = {la carte tire est un cur}

On a pour E, p(E) = 1/32 et I(E) = 5, et pour F, p(F) = 1/4 et I(F) = 2.

E et F ne sont pas indpendants car p(E/F) = p(EF) / p(F) = (1/32)/(1/4) = 1/8

Cela nous mne dfinir l'information mutuelle pour 2 vnements.

3.2 Information mutuelle

On veut mesurer l'apport d'information de l'vnement F sur l'vnement E. Si la ralisation

de F augment la probabilit de ralisation de E on veut que cette mesure soit positive et

inversement si F augmente l'incertitude sur E cette mesure doit tre ngative. Enfin si les deux

vnements sont indpendants cette mesure doit tre nulle.

Dfinition 2.2 Soient E et F 2 vnements. L'information apporte par F sur E est dfini par

Contrairement la quantit d'information, l'information mutuelle n'est pas toujours un rel

positif.


3/5


3

On notera alors I(F E) = I(E, F) = I(F,E) et on l'appellera information mutuelle entre

E et F.

On remarque que si

- I(E, F) > 0 alors la ralisation d'un des 2 vnements augmente la probabilit del'autre (diminue son incertitude)- I(E ; F) = 0 alors E et F sont indpendants, l'information mutuelle est nulle- I(E, F) < 0 alors la ralisation d'un des 2 vnements diminue la probabilit de l'autre

(augmente son incertitude)

- p(E F) = 0 alors la ralisation d'un des 2 vnements rend impossible la ralisationde l'autre et I(E, F) = -

La proprit suivante tablit un lien entre la quantit d'information et l'information mutuelle.

Proprit 2.3 I(EF) = I(E) + I(F) - I(E, F)

3.3 Entropie

3.3.1 Entropie d'une variable alatoire

Prenons l'exemple d'un d. On voudrait connatre comme contenu d'information la valeur du

d aprs un lancer. Soit alors X la variable alatoire valeurs dans {1, 2, 3, 4, 5, 6}. X peut

prendre 6 valeurs et si le d n'est pas truqu, les valeurs sont quiprobables. Donc chaque

valeur correspond une quantit d'information de 2,58 bits (= -log2(1/6))

Mais supposons maintenant que le d soit truqu et que la valeur 6 sorte avec une probabilit

0,5 et que les autres valeurs soient quiprobables. La quantit d'information pour chaque

valeur n'est pas la mme et pour avoir une vision globale on peut tre intress connatre

l'information moyenne soit l'esprance de I(X).

Elle vaut ici :

Dfinition 2.3 On appelle entropie de X l'esprance de I(X) note H(X).

- H(X) est un rel positif comme I(X = x).- H(X) correspond au nombre moyen d'lments binaires pour coder les diffrentes

valeurs de X.

- H(X) n'est fonction que de la loi de probabilit de X, pas des valeurs prises par X.Exemple 2.2 : pour un jeu de 32 cartes, on dfinit la variable alatoire X par X = 0 si la carteest rouge, X = 1 si la carte est un pique et X = 2 si la carte est un trfle. On a alors


4/5


4

H(X) = -( log2 + log2 + log2 ) = + 2 + 2 = 1,5 bits

Le rsultat suivant aura pour consquence de pouvoir mesurer l'efficacit d'un code

Thorme 2.4 H(X) < = - log2 n si X prend n valeurs.

H(X) = - log2 n si et seulement si X a une loi uniforme

(c'est--dire p(X = x) = 1/n pour tout x).

Proprit 2.5 L'entropie augmente lorsque le nombre de valeurs possibles augmente.

3.3.2 Entropie conditionnelle

Soient X; Y 2 variables alatoires discrtes.

Dfinition 2.4 On appelle entropie de X conditionnelle Y = y

On a alors :

Dfinition 2.5 On appelle entropie de X sachant Y

Enfin on dfinit l'entropie mutuelle comme l'entropie d'un couple de variables alatoires

Dfinition 2.6 On appelle entropie mutuelle de X, Y

Entropie de X sachant Y et entropie mutuelle sont deux valeurs positives. Le lien entre

entropie mutuelle et conditionnelle est donne par

Proprit 2.6 H(X, Y) = H(X) + H (Y/X) = H(Y ) + H(X/Y )

Pour quantifier l'apport d'information X fournie par Y, on mesure la diffrence entre

l'entropie de X (l'information moyenne de X) et l'entropie conditionnelle de X sachant Y, soit

H(X)-H(X/Y).

Il est facile de montrer que H(X)-H(X/Y) = H(Y)-H (Y/X) c'est--dire ce que Y apporte X

est gal ce que X peut apporter Y .


5/5


5

En effet H(X)-H(X/Y ) = H(X,Y )-H(Y/X)-H(X=Y ) d'aprs la proposition prcdente.

En l'appliquant de nouveau on dduit H(X) - H(X/Y) = H(Y) - H (Y/X).

On peut montrer que cette quantit est gale l'esprance de I(X = x, Y = y) dfini plus haut

comme information mutuelle.

O I(X ; Y) est l'esprance de I(X = x, Y = y)

On peut montrer aussi que cette esprance est toujours positive contrairement l'information

mutuelle.

Proprit 2.7 I(X; Y) >= 0

Remarque : si X et Y sont indpendants alors I(X, Y) = 0.

On dduit de ce rsultat

Proprit 2.8 H(X/Y)

theorie de l'information: chapitre 3

Documents

Transcript of theorie de l'information: chapitre 3