Théo inf

56
03/01/13 1 Plan du cours Introduction Système de communication Schéma général de la communication Sources d’information Sources d’information discrètes Canal Canal discret sans mémoire Canal continu

Transcript of Théo inf

Page 1: Théo inf

03/01/13 1

Plan du cours

Introduction

Système de communication

Schéma général de la communication

Sources d’information

Sources d’information discrètes

Canal

Canal discret sans mémoire

Canal continu

Page 2: Théo inf

03/01/13 2

Théorie de l’information Théorie de l’information: Théorie mathématique qui se préoccupe des systèmes d'information, des systèmes de communication et de leurs efficacités.

• Créée par C. E. Shannon dans les années 40.

•Fournit une mesure quantitative de la notion d'information apportée par un message (ou une observation).

Page 3: Théo inf

03/01/13 3

Système de communication

Source : voix, musique, image (fixe ou animée), texte, . . .Canal : radio, fil, fibre optique, support magnétique ou optique, . . .Bruit : perturbations électromagnétiques, rayures, . . .

Moyens de transmettre une information depuis la source jusqu’à un utilisateur à travers un canal.

Page 4: Théo inf

Système de communication

03/01/13 4

Page 5: Théo inf

Théorie de l'information La transmission peut se faire dans l’espace ou dans le temps.

Codeur: Ensemble des opérations effectuées sur la sortie de la source avant la transmission. Ces opérations peuvent être par exemple:•la modulation, la compression, le brouillage, l’ajout de redondance, la cryptographie

Le décodeur doit être capable, à partir de la sortie du canal, de restituer de façon acceptable l’information fournie par la source.

03/01/13 5

Page 6: Théo inf

Théorie de l'informationEn Général, Les sciences de l'information essaient de dégager le sens des informations en vue de prendre des décisions depuis des données en s'appuyant sur des questions de:

corrélation, d'entropie d'apprentissage.

Alors que Les technologies de l'information, s'occupent de la façon de:

concevoir, implémenter et déployer des solutions pour répondre à des besoins identifiés.

03/01/13 6

Page 7: Théo inf

Théorie de l'information On constate donc que dans la chaîne qui mène de la donnée à l'action (prise de décision, déduction,….): (données -> information -> connaissance -> sens -> motivation)

• Seule les deux premières transformations sont prises en compte par la théorie de l'information classique

données -> information

03/01/13 7

Page 8: Théo inf

03/01/13 8

Schéma général de la communicationX=“HELLO” x=0011010100… y=0011000100… Y=“CELLO”

Source information Transmetteur Canal Récepteur Destination

P(X) X=F(x) yY=G(y)

Bruit

P(y|x)

1er rôle du transmetteur/récepteur : – Traduire la source en un langage admis par le canal

2ème rôle du transmetteur/récepteur : – réduire la redondance de la source

3ème rôle du transmetteur/récepteur :– gérer les erreurs du canal, – les détecter et/ou les corriger

Page 9: Théo inf

03/01/13 9

Sources d’information

• Définition : Systèmes capables de sélectionner et

d’émettre des séquences de signes (ou messages)

appartenant à un ensemble (ou alphabet) donné• Ex. de signes : lettres, chiffres, échantillons• Ex. de sources : système à 2 niveaux logiques,

texte

Page 10: Théo inf

03/01/13 10

Modèles de Sources d’information

On peut distinguer, parmi les classes de modèles

de sources:• les sources discrètes sans mémoire, finie ou

infinie. • les sources non discrètes, ou sources continues,

Page 11: Théo inf

03/01/13 11

Sources d’information discrètesUne source discrète χ est un alphabet fini χ = (a1,…, aK) muni d'une loi de probabilité PX.• Exemples : Sources d’information alphanumériques,

de symboles binaires, d’information numérique (signaux quantifiés en amplitude, en fréquence ou en phase)

2 sortes de sources:• Sources sans mémoire : signes générés indépendamment les

uns des autres => modèle de Bernoulli

• Sources avec mémoire : prise en compte de la dépendance entre un signe émis et les signes précédents=> modèle de Markov: Ex : description statistique des langues écrites usuelles

Page 12: Théo inf

03/01/13 12

Hypothèse sur la source• On considère le message produit par la source comme un

signal aléatoire dont on peut connaître les probabilités d’occurrence des symboles p(X).

Exemple 1: source binaire équiprobable, “010010111001…”, p(0) = 1-p(1) = 0.5

Exemple 2: source binaire biaisée, “11011110011111…”, p(0) = 1-p(1) = 0.2

Exemple 3: source alphabétique équiprobable, “AGRWTCHG…”,p(A) = p(B) = p(C) = … p(Z) = 1/26.

Page 13: Théo inf

03/01/13 13

Page 14: Théo inf

Canal

• Pour modéliser un canal de transmission, il est nécessaire de spécifier l’ensemble des entrées et l’ensemble des sorties possibles.

• Canal discret sans mémoire: L’entrée est une lettre prise dans un alphabet fini A = {a1,...,an} et la sortie est une lettre prise dans un alphabet fini B = {b1,...,bm}

03/01/13 14

Page 15: Théo inf

Canal discret sans mémoire

• Chaque lettre de la séquence reçue ne dépend statistiquement que de la lettre émise de même position.

• Entièrement décrit par la donnée des probabilités conditionnelles p(b|a) pour toutes les lettres a de l’alphabet d’entrée et toutes les lettres b de l’alphabet de sortie.

03/01/13 15

Page 16: Théo inf

Canal continu

• Plus proches des canaux physiques. • L’entrée et la sortie sont des fonctions

continues du temps.

03/01/13 16

Page 17: Théo inf

Canal continu• Le codeur du canal discret, transforme une

séquence binaire en une séquence de lettres d’un alphabet fini A = {a1, . . . , an}.

• La seconde partie du codeur, le modulateur de données digitales, envoie pendant un temps τc sur le canal une des fonctions de temps prédéfinies s1(t), . . . , sn(t).

• La durée τc est l’intervalle de temps séparant l’émission de deux lettres par le codeur de canal discret.

03/01/13 17

Page 18: Théo inf

Canal continu

• L’ensemble de ces fonctions du temps mises bout à bout est converti à la sortie du canal par le démodulateur de données digitales en une séquence de lettres d’un alphabet de sortie B = {b1, . . . , bm} au rythme, d’une lettre toutes les τc secondes

03/01/13 18

Page 19: Théo inf

03/01/13 19

Hypothèse sur le canal• On considère le canal de transmission en termes probabilistes

via les probabilités de transition p(y|x) d’obtenir un symbole y en sortie quand le symbole x a été introduit en entrée

Exemple 1: canal binaire sans bruit, p(0|0) = p(1|1) = 1 p(1|0) = p(0|1) = 0

Exemple 2: canal binaire bruité, p(0|0) = p(1|1) = 1- p ,p(1|0) = p(0|1) = p

Exemple 3: machine à écrire bruitée, p(A|A) = p(B|A) = 0.5 ,p(B|B) = p(C|B) = 0.5 ,p(C|C) = p(D|C) = 0.5 , …

Page 20: Théo inf

03/01/13 20

Page 21: Théo inf

Exemple d’informationProblème:

Une bibliothèque possède un grand nombre: d'ouvrages, des revues, des livres et des dictionnaires.

Nous cherchons un cours complet sur la théorie de l'information.

03/01/13 21

Page 22: Théo inf

Exemple d’information• Tout d'abord, il est logique que nous ne trouverons pas ce dossier dans des ouvrages d'arts ou de littérature; nous venons donc d'obtenir une information qui diminuera notre temps de recherche. • Il est précisé que nous voulions aussi un cours complet, nous ne le trouverons donc ni dans une revue, ni dans un dictionnaire. • Nous avons obtenu une information supplémentaire (nous cherchons un livre), qui réduira encore le temps de notre recherche.

03/01/13 22

Page 23: Théo inf

Notion de la quantité d’information

03/01/13 23

Page 24: Théo inf

Notion de la quantité d’information

03/01/13 24

Page 25: Théo inf

Notion de la quantité d’informationProblèmeConsidérons N boîtes numérotées de 1 à N. Un individu A a caché au hasard un objet dans une de ces boîtes. Un individu B doit trouver le numéro de la boîte où est caché l'objet. Pour cela, B a le droit de poser des questions à l'individu A A doit répondre sans mentir par OUI ou NON. Mais chaque question posée représente un coût à payer par l'individu B (par exemple un dinar). Un individu C sait dans quelle boîte est caché l'objet. Il a la possibilité de vendre cette information à l'individu B. B n'acceptera ce marché que si le prix de C est inférieur ou égal au coût moyen que B devrait dépenser pour trouver la boîte en posant des questions à A. L'information détenue par C a donc un certain prix. Ce prix représente la quantité d'information représentée par la connaissance de la bonne boîte : c'est le nombre moyen de questions à poser pour identifier cette boîte. Nous la noterons I.

03/01/13 25

Page 26: Théo inf

Notion de la quantité d’information

•Si N = 1, I = 0. Il n'y a qu'une seule boîte. Aucune question n'est nécessaire.•Si N = 2, I = 1. On demande si la bonne boîte est la boîte n°1. La réponse OUI ou NON détermine alors sans ambiguïté quelle est la boîte cherchée.•Si N = 4, I = 2. On demande si la boîte porte le n°1 ou 2. La réponse permet alors d'éliminer deux des boîtes et il suffit d'une dernière question pour trouver quelle est la bonne boîte parmi les deux restantes.

03/01/13 26

Page 27: Théo inf

Notion de la quantité d’information

•Si N = 2k, I = k. On écrit les numéros des boîtes en base 2. Les numéros ont au plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si la boîte cherchée possède le chiffre 0 ou le chiffre 1.• En k questions, on a déterminé tous les chiffres binaires de la bonne boîte. Cela revient également à poser k questions, chaque question ayant pour but de diviser successivement le nombre de boîtes considérées par 2 (méthode de dichotomie).

On est donc amené à poser I = log2(N), mais cette configuration ne se produit que dans le cas de N événements équiprobables.

03/01/13 27

Page 28: Théo inf

Notion de la quantité d’information

• Supposons maintenant que les boîtes soient colorées, et qu'il y ait n boîtes rouges. • Supposons également que C sache que la boîte où est caché l'objet est rouge. Quel est le prix de cette information? • Sans cette information, le prix à payer est log(N). Muni de cette information, le prix à payer n'est plus que log(n). • Le prix de l'information « la boîte cherchée est rouge » est donc :

log(N) − log(n) = log(N / n).

03/01/13 28

Page 29: Théo inf

Notion de la quantité d’information

On définit ainsi la quantité d'information comme une fonction croissante de N/n avec :

N : le nombre d'évènements possibles

n : le cardinal du sous-ensemble délimité par l'information

Quantité d'information: I=log2(N/n)

03/01/13 29

Page 30: Théo inf

03/01/13 30

Page 31: Théo inf

Information mutuelle

03/01/13 31

Page 32: Théo inf

03/01/13 32

Page 33: Théo inf

03/01/13 33

Page 34: Théo inf

Entropie, formule de Shannon

Supposons maintenant que les boîtes soient de diverses couleurs :

n1 boîtes de couleur C1,

n2 boîtes de couleur C2,

...,

nk boîtes de couleurs Ck,

avec n1 + n2 + ... + nk = N. 03/01/13 34

Page 35: Théo inf

Entropie, formule de Shannon

La personne C sait de quelle couleur est la boîte recherchée.

Quel est le prix de cette information ?

L'information « la boîte est de couleur C1 » vaut log N/n1, et cette éventualité a une probabilité n1/N.

L'information « la boîte est de couleur C2 » vaut log N/n2, et cette éventualité a une probabilité n2/N...

03/01/13 35

Page 36: Théo inf

Entropie, formule de Shannon

Le prix moyen de l'information est donc:

n1/N log( N/n1 )+ n2/N log (N/n2 )+ ... + nk/N log (N/nk)

Plus généralement, si on considère k évènements disjoints de probabilités respectives p1, p2, ..., pk avec :

p1 + p2 + ... + pk = 1, alors la quantité d'information correspondant à cette distribution de probabilité est:

p1 log 1/p1 + ... + pk log 1/pk.

Cette quantité s'appelle entropie de la distribution de probabilité

01/03/13 36

Page 37: Théo inf

Entropie, formule de Shannon

L’entropie permet donc de mesurer la quantité d'information moyenne d'un ensemble d'évènements (en particulier de messages) et de mesurer son incertitude.

On la note H :

avec la probabilité associée à

l'apparition de l'évènement i.

01/03/13 37

Page 38: Théo inf

Entropie

• Du point de vue d'un récepteur, plus la source émet d'informations différentes, plus l'entropie (ou incertitude sur ce que la source émet) est grande, et vice versa.

• Plus le récepteur reçoit d'information sur le message transmis, plus l'entropie (incertitude) vis-à-vis de ce message décroît.

01/03/13 38

Page 39: Théo inf

Entropie

• La définition de l'entropie d'une source selon Shannon est telle que plus la source est redondante, moins elle contient d'information.

• En l'absence de contraintes particulières, l'entropie est maximale pour une source dont tous les symboles sont équiprobables.

01/03/13 39

Page 40: Théo inf

Entropie

• Dans le cas particulier d'un système de télécommunication, l'entropie de la source d'information (le transmetteur) indique l'incertitude du récepteur par rapport à ce que la source va transmettre

01/03/13 40

Page 41: Théo inf

Entropie• Une source réputée envoyer toujours le

même symbole, disons la lettre 'a', a une entropie nulle, c'est-à-dire minimale.

• En effet, un récepteur qui connait seulement les statistiques de transmission de la source est assuré que le prochain symbole sera un 'a', sans jamais se tromper.

• Le récepteur n'a pas besoin de recevoir de signal pour lever l'incertitude sur ce qui a été transmis par la source car celle-ci n'engendre pas d'aléa

01/03/13 41

Page 42: Théo inf

Entropie

• Par contre, si la source est réputée envoyer un 'a' la moitié du temps et un 'b' l'autre moitié, le récepteur est incertain de la prochaine lettre à recevoir. L'entropie de la source dans ce cas est donc non nulle (positive) et représente quantitativement l'incertitude qui règne sur l'information émanant de la source.

01/03/13 42

Page 43: Théo inf

Entropie

• Du point de vue du récepteur, l'entropie indique la quantité d'information qu'il lui faut obtenir pour lever complètement l'incertitude (ou le doute) sur ce que la source a transmis

01/03/13 43

Page 44: Théo inf

• Si une source émet n lettres équiprobables (ou encore avec une loi de probabilité uniforme), son entropie est donc log2 n.

• Si n = 2r, son entropie est alors r.Or pour représenter 2r lettres distinctes en binaires, r cases sont nécessaires. L’entropie d’une source est quelquefois donnée en bits/seconde

Entropie

01/03/13 44

Page 45: Théo inf

01/03/13 45

Page 46: Théo inf

01/03/13 46

Page 47: Théo inf

01/03/13 47

Entropie d’une source discrète• Exemple 2: 26 lettres de l’alphabet

• Exemple 3: code ASCII 7 bits - 128 symboles

• Exemple 4: X dans {a,b,c,d}, p(a) = ½ , p(b) = ¼ , p(c) = p(d) = ?

lettrebitsXHk

/7.426

1log

26

1)(

26

1

=

−= ∑

=

lettresbitsXHk

/7128

1log

128

1)(

128

1

=

−= ∑

=

symbolebitsXH /4

7

8

1log8

1

8

1log8

1

4

1log4

1

2

1log2

1)( =−−−−=

Page 48: Théo inf

01/03/13 48

Entropie d’une source discrète

Page 49: Théo inf

01/03/13 49

Entropie d’une source discrète

Page 50: Théo inf

01/03/13 50

Entropie d’une source discrète

Page 51: Théo inf

5101/03/13

Page 52: Théo inf

01/03/13 52

Page 53: Théo inf

01/03/13 53

Page 54: Théo inf

01/03/13 54

Page 55: Théo inf

01/03/13 55

Page 56: Théo inf