Processus stochastiques et traitement statistique de ... types processus... · statistique de...

46
1 UNIVERSITÉ DE SHERBROOKE 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 1 Bloc 2 : Notions de base Semaine 5: types de processus stochastiques partie II GEI 756 Processus stochastiques et traitement statistique de signaux aléatoires Denis Gingras Janvier 2013 UNIVERSITÉ DE SHERBROOKE 8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 5 2 Plan du cours Indépendance en probabilité conditionnelle Processus de renouvellement Probabilité Chaîne de Markov Modèle de Markov caché Algorithme « Forward », « Backward » et de Viterbi Processus de comptage Processus de Poisson simple et composé Bruit de grenaille Semaine 5: types de processus stochastiques Partie II

Transcript of Processus stochastiques et traitement statistique de ... types processus... · statistique de...

1

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 51

Bloc 2 : Notions de base

Semaine 5: types de processusstochastiques partie II

GEI 756

Processus stochastiques et traitementstatistique de signaux aléatoires

Denis Gingras

Janvier 2013

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 52

Plan du cours

Indépendance en probabilité conditionnelle

Processus de renouvellement

Probabilité Chaîne de Markov

Modèle de Markov caché

Algorithme « Forward », « Backward » et de Viterbi

Processus de comptage

Processus de Poisson simple et composé

Bruit de grenaille

Semaine 5: types de processus stochastiques Partie II

2

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 53

Familles de processus

Avec mémoire(casparticuliers)

Sansmémoire

Semaine 4

Semaine 5

Avecmémoire

Sansmémoire

1) La marche aléatoire est unechaîne de Markov avec unnombre infini d’état.2) Tout processus à moyennenulle et à accroissementsindépendants (ex.Wiener discret)est une martingale.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 54

DTDV, Discret Time / Discret Values, processus à tempsdiscret et à valeurs discrètes.

DTCV, Discret Time / Continuous Values, processus àtemps discret et à valeurs continues.

CTDV, Continuous Time / Discret Values, processus àtemps continu et à valeurs discrètes.

CTCV, Continuous Time / Continuous Values, processus àtemps continu et à valeurs continues.

NB: Un processus ponctuel n’est pas nécessairementdiscret, ni dans le temps, ni dans ses valeurs.

Quatre types de processus stochastiques

3

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 55

Quatre types de processus stochastiques

Processus de Bernouilli Processus de Poisson (temps d’arrivée)

Processus de Poisson (nombre d’occurrences) Processus gaussien

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 56

Notion d’indépendance conditionnelle

Soient x,y,z trois séquences aléatoires discrètes.

On dit que x est indépendante de y si et seulement si,

, : ( , ) ( ) ( )i j i ji j P x y P x P y

On dit que x est indépendant de y conditionnellement à

z si et seulement si,

, , : ( , ) ( ) ( )i j k i k j ki j k P x y z P x z P y z

La notion d’indépendance conditionnelle (d’ensembles) de v.a. estune notion fondamentale dans le domaine des processus aléatoirespour la construction de modèles à partir d’hypothèses physiquesou pour la mise au point d’algorithmes efficaces d’inférence.

4

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 57

Représentation graphique de probabilitésconditionnelles

( , , ,...) ( ) ( ) ( )....P A B C P A P B A P C B

Graphiquement une telle factorisation des probabilitéconditionnelles des états A, B et C … est représentéecomme suit,

En cas d’absence d’indépendance conditionnelle, deplusieurs « états » (évènements) nous avonssouvent une dépendance en « chaîne » de la forme,

A B C …

( )P B A

P A P B

( )P C B

P C

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 58

Filtration Soit xt un processus stochastique

Associé au processus nous avons l’espace échantillonnal

Chaque point (un résultat) dans correspond à une trajectoire (i.e., une seuleréalisation du processus).

Aussi associé au processus, est l’ensemble des évènements, F, une collection

exhaustive des sous-ensembles de (constituant un sigma-algèbre), auxquelson associe une masse de probabilité à chacun des sous-ensembles.

Pour les processus temporel, à chaque temps t, on définit Ft (Ft F), lequel est

un sous-ensemble d’évènements de F au temps t.

A Ft ssi A=f(x1,…,xt). Ainsi, alors que x1,…xt prennent des valeurs connues au

temps t, A prends aussi une valeur connue au temps t.

La famille de sous-ensembles imbriqués (nested), (Ft), t 0 est connue sous le

nom de « filtration naturelle » associée au processus stochastique xt.

La filtration décrit l’information gagnée à partir des observations du processus

jusqu’au temps t.

5

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 59

La propriété markovienne

Un processus qui ne dépend aucunement de ses réalisationsantérieures est un processus sans mémoire.

La propriété markovienne est une propriété de mémoire finie dans letemps. Lorsque l’évolution future d’un processus aléatoire ne dépendpas de son évolution passée, mais seulement de sa dernière réalisation(mémoire finie) et de son état présent, le processus possède lapropriété markovienne.

Un processus stochastique qui a la propriété markovienne est appeléun processus de Markov.

Si l’espace d’états (l’espace des valeurs que peut prendre le processus)et le temps sont discrets, on parle alors de chaînes de Markov.

Lorsque l’espace d’état est discret mais que le temps est continu, onparle de processus à sauts.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 510

La propriété markovienne

Pour le cas à temps discret, nous avons,

Définition: Soit un processus stochastique continu x(t), t .

Alors x(t) est dit avoir la propriété markovienne si t, la PDF

1 2 1 2 1[ ,... ] [ ], ...x n x nf x t | x t ,x t x t f x t | x t t t t t

[ 1 ,... ... ] [ 1 ],x xf x n | x n ,x n - 2 x n f x n | x n n

La distribution conjointe du processus x(n) à partir de 0,

[ 0 ,... ]

[ 0 ] [ 1 0 ] [ 2 1 0 ] [ 3 2 1 0 ]...

x

x x x x

f x ,x 1 x n

f x f x | x f x | x ,x f x | x ,x ,x

6

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 511

NB: Un processus markovien demeure markovien lorsquele vecteur temps est renversé.

[ 1 ,... ... ] [ 1 ],x xf x n | x n ,x n+2 x n f x n | x n n

Devient alors,

La propriété markovienne

[ 0 ,... ]

[ 0 ] [ 1 0 ] [ 2 1 ] [ 3 2 ]... [ 1 ]

x

x x x x x

f x ,x 1 x n

f x f x | x f x | x f x | x f x n | x n

1

[ 0 ] [ 1 ]n

x xi

= f x f x i | x i

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 512

Un processus avec des accroissements indépendants a lapropriété markovienne (ex. Marche aléatoire, Wiener discretetc)

Une marche aléatoire, qui est définie par

( ) ( ),n

k

x n k

est un processus markovien car on sait que

( ) ( 1) ( ), ( ) ,

.

x n x n n et que n est Bernouilli

donc sans mémoire

Processus de Markov

7

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 513

La densité conditionnelle de x(n) étant donné x(n-1) est

également gaussienne et est donné par,

Processus de Markov continu

Exemple: soit,

Un processus de Markov peut donc avoir des valeurscontinues.

( ) ( 1) ( ),x n x n w n

Où w(n) est un processus iid à moyenne nulle gaussien

avec une PDF,.2

22

1( ) exp

22w

oo

wf w

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 514

En fait, si w(n) est indépendant avec n’importe quelle PDF,

la densité conditionnelle de x(n) étant donné x(n-1) est

fw(x(n)-ρx(n-1)). Donc x(n-1) détermine complètement la

distribution de x(n). C’est donc un processus markovien.

2

( ) ( 1) 22

( ) ( 1)1( ( ) ( 1)) exp

22x n x n

oo

x n x nf x n x n

Exemple (suite)

Processus de Markov continu

8

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 515

La chaîne de MarkovLorsque x(n) prend seulement des valeurs discrètes

dénombrables (états) et que le temps est discret, leprocessus est appelé “chaîne de Markov”. Ces valeurs

discrètes du processus correspondent à Q “états” S1,S2,…SQ , à l’instar des systèmes.

La probabilité de transition de l’état Si à l’état Sj est

définie par, ( ) Pr ( ) ( 1)j ij i

p n x n S x n S

Pour un nombre fini d’états la matrice des probabilités detransition (ou matrice de transition) est donnée par,

( ) ( ) , ,j i

n les éléments p n avec j colonne i ligne

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 516

La chaîne de Markov

État 1

État 2

État 3

Commutateurs

« S=Switch »

9

UNIVERSITÉ DE

SHERBROOKE

Les chaînes de Markov sont habituellement représentées par desgraphes de transition – les états sont reliés par des flèches indiquantla direction de la transition. Souvent les états sont représentés par desronds ou des points. La probabilité de transition est indiquée à côté dela flèche correspondante. La somme des probabilités de transition quisortent d’un état est égale à 1.

3

2 1

0

4

6

5

11 1

11/3

2/3

3/5 2/5

1

La chaîne de Markov

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 518

La chaîne de Markov( ) 1jij i

j j

p n p

Ex. un graphede transition

Une matrice de transition est une matrice stochastique (voir semaine 2),i.e. la somme sur une ligne =1. Attention: dans les graphes, c’est lasomme des probabilités de transition qui sortent d’un état qui égale à 1.

0

p01= 1/4

21

et sa matricede transition

314 400 10 20

314 401 11 21

314 402 12 22

0

0

0

p p p

p p p

p p p

p10= 3/4 p21= 3/4 p22= 3/4

p00= 1/4 p12= 1/4

10

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 519

Différentes topologies des machinesà états finis

Que pouvez-vous dire sur ces modèles markoviens ?

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 520

Différentes topologies desmachines à états finis

11

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 521

La distribution d’une chaîne de Markov est totalementspécifiée à l’aide des informations suivantes:

La distribution de probabilité initiale des états Pr[x0=S0]

Les probabilités de transition d’un état à l’autre

Ainsi la probabilité de n’importe quel parcours, définie par,

Peut se mettre sous la forme,

D’où le terme « chaîne »

( , 1)n njip

0 1 0 1 0 2 1 1

(0,1) (1,2) ( 1, )0Pr[ ] Pr[ ]. ...

n n n

n n0 i 1 i n i i i i i i i ix = S ,x = S ,…,x = S x S p p p

La chaîne de Markov

0 1Pr

n0 i 1 i n ix = S ,x = S ,…,x = S ,

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 522

Pour le cas homogène, on écrit souvent simplementpour .

Une chaîne de Markov est dite homogène si pour tout les

temps n et pour tout les états i et j

i.e., les probabilités de transition sont indépendantes dutemps. Ainsi, savoir dans quel état se trouve le processusidentifie de façon unique les probabilités de transition.

( , 1) (0,1)( , 1) n nji ji jip n n p p

( , ) (0, )

( )

m n n mji ji

n mji

p p

p

jip( 1)n mjip

Chaîne de Markov homogène

12

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 523

Chaîne de Markov homogène

Une chaîne de Markov est donc homogène lorsque les

probabilités de transitions sont indépendantes de n. La

probabilité du premier ordre des états d’un processus

homogène peut toutefois être fonction de n.

( ) Pr ( )is ip n x n S

Nous supposons pour la suite que le processus de Markov

est homogène. Notez que la probabilité de k transitions est

définie par,

( ) ( ) Pr ( ) ( ) .n kji j ij i

p p n k x n S x n k S

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 524

La chaîne de Markov

de la distribution des Q états au temps n. Ce vecteur

vérifie les conditions suivantes.

1 2( ) ( ), ( ),..., ( )T

s Qp n p n p n p n

En factorisant

( ) ( ) ( )

1

, 0Q

k l k l

j i j q q iq

p p p l k

Soit le vecteur

,

.

,

k l k l l k loù et sont respectivement

les matrices des probabilités de l et de k l transitions

On en déduit

( ) ( 1)T Ts sp n p n

( ) ( )T T n ks sp n p n k

13

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 525

Le dernier ensemble d’équations est la version discrèteavec un temps initial m=0 des équations de Chapman-Kolmogorov. De façon générale, les probabilités detransition d’une chaîne de Markov obéissent auxéquations de Chapman-Kolmogorov , i.e., pour touttemps m < k

Il s’agit d’une conséquence directe du théorème desprobabilités totales (voir le cours semaine 2) et de lafactorisation.

( , ) ( , ) ( , )

1

, ;Q

k m l m k lji jq qi

q

p p p i j Q m l k

Les équations Chapman-Kolmogorov

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 526

( )k mjip

( ) ( ) ( )

1

, ;Q

k m l m k lji jq qi

q

p p p i j Q m l k

Chaîne de Markov homogène

est appelé la probabilité de la (k-m) transition.

Pour le cas homogène, les équations de Chapman-Kolmogorov se simplifient à,

14

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 527

( )Pr[ ] ( )k km k j m i ji jix S x S p |

Conséquence des équations C-K

Les équations Chapman-Kolmogorov

La probabilité de la kieme transition passant de l’état i à l’état

j est simplement l’élément ji dans la matrice i.e. c’est

équivalent à la matrice d’une transition pris à la

puissance k. Cette notation algébrique est couramment

utilisé pour l’étude des processus markovien.

Soit x(n) une chaîne de Markov homogène.

Nous avons défini une matrice d’une transition Π avec

(Π)ji= pji , une matrice Q x Q où Q est la cardinalité de

l’espace des états S. Alors,

( ) ji( )k

ji

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 528

Nous avons

Et,

Rappel: Les matrices qui ont ces deux propriétés sont appelés

des matrices stochastiques.

( ) 1, , 1kjq

q S

p j k

( )0 1, 0 , ,kjqp j q Q q S

Chaîne de Markov homogène

Propriétés de la matrice des probabilités de transition

15

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 529

Soit la distribution initiale des probabilités des états à l’instant initial

n0 est défini par . Alors, puisque

Chaîne de MarkovSouvent une chaîne de Markov converge vers un comportement limitede sa matrice des probabilités de transition pour un grand nombre

d’observations. Ainsi, pour k très grand, les probabilités de la kièmetransition deviennent indépendantes des probabilités de transition

initiales. Reprenons la forme vectorielle des probabilités des Q états du

processus,0 1 2( ) ( ) ( ), ( ),..., ( )

T

s s Qp n p n k p n p n p n

0( ) ( )0 0( ) ( ) ( )n nT T T k

s s sp n p n p n

0( )sp n

0( ) ( )0 0 0lim ( ) lim ( ) lim ( ) ( )n nT T T k T limite

s s s sn n k

p n p n p n p n

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 530

Chaîne de Markov

Soit le processus markovienà deux états,

Important: Les probabilités de transition limites n’existentpas pour tous les processus markoviens.

16

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 531

Chaîne de MarkovExemples de processus markoviens qui n’ont pas deprobabilités de transition limites. Expliquez pourquoi ?

État transitoire

2 étatsrécurrents(oscillateurs)

États périodiques

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 532

Chaîne de Markov - stationnarité

Une chaîne de markov homogène x(n) est stationnaire

si les probabilités de ses états deviennent indépendant dutemps, i.e.,

0( ) ( ) , 0s s sp n p n k p k

I 0T T Ts s sp p ou p

Alors, la distribution stationnaire des probabilités des états

ps est la solution de

En utilisant la contrainte 1is

i

p Theorème utile: Une chaîne de Markov ayant un nombre fini d’états aau moins une distribution des probabilités des états qui est stationnaire.

17

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 533

Considérons une chaîne de Markov homogène à deuxétats ayant une matrice de transition donnée par,

1 12 2

1 23 3

Chaîne de Markov - stationnarité

On veut trouver sa distribution stationnaire desprobabilités des deux états en résolvant l’équationcaractéristique,

On trouve, I 0T

sp

2 / 5,3 / 5 , (1) (2) 1T

s s sp car p p

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 534

Considérons la chaîne de Markov homogène à deux états S={0,1},ayant la matrice de transition suivante:

On peut résoudre analytiquement pour trouver la distributionstationnaire unique

Cependant le processus ne pourra jamais atteindre cette distributionà moins qu’il ne démarre avec elle (cas trivial). Expliquez à partirdu graphe de la chaîne.

0 1

1 0

La chaîne de Markov

Autre exemple:

½,½T

sp

18

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 535

Les probabilités d’obtenir une séquence de dix +1 et une séquence dedix -1 sont données respectivement par,

Autre exemple: Considérons une séquence binaire de +1 et de -1modélisée par une chaîne de Markov à deux états ayant unematrice de transition donnée par,

0.6 0.4

0.1 0.9

Chaîne de Markov - stationnarité

On veut trouver la distribution stationnaire des probabilités des deuxétats en résolvant, on trouve, I 0T

sp 0.2,0.8T

sp

1 2

9 9 9 91 111 2 2( ) (0.2)(0.6) 0.0020 ( ) (0.8)(0.9) 0.3099s sp p et p p

Comparons avec le cas d’une séquence de Bernouilli de 10 +1 et d’uneséquence de Bernouilli de 10 -1 (réalisations indépendantes). Lesprobablités (beaucoup plus faibles !) sont données par,

10 7 10(0.2) 1.024 10 (0.8) 0.1074et x

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 536

ne sont pas indépendants puisque les lignes dans la matrice somme àl’unité. De façon équivalente, ceci peut être vu par la normalisation(mise en échelle) qui dit que nous ne devons résoudre que pour n-1inconnus seulement. Puisque,

Pour le cas général, les n équations de la chaîne de Markov à nétats provenant de l’égalité

Chaîne de Markov - stationnarité

on peut ainsi enlever une équation sans perte d’information. Habi-

tuellement, on résout en terme d’un des pji et ensuite on applique la

normalisation. La technique générale de résolution du systèmed’équations est par élimination gaussienne.

I 0T Tsta sta stap p ou p

1jij

p

19

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 537

Note: un processus de Markov n’est pas nécessairement stationnaire entout temps. Si une chaîne de Markov lors de son évolution vient àtomber sur une distribution de probabilité stationnaire de ses états,alors la distribution des x(n)s devient invariant et la chaîne devient unprocessus stationnaire à partir de ce moment.

La chaîne peut devenir stationnaire dès le premier pas temporel(n0 +1) ou plus tard.

Notez que, même si une chaîne de Markov a une distributioninitiale stationnaire, (i.e., la distribution de x(n0) ), il peut nejamais tomber sur une distribution stationnaire par la suite.

En général, les processus de Markov n’ont pas de distributionstationnaire. Mais si elles en ont, elles peuvent en avoir plus d’unetout au long de son évolution.

NOTE: une marche aléatoire simple n’a pas de distributionstationnaire (puisqu’elle a un nombre infini d’états).

Chaîne de Markov - stationnarité

Theorème utile: Une chaîne de Markov ayant un nombre fini d’états aau moins une distribution des probabilités des états qui est stationnaire.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 538

Chaîne de Markov

On se souvient qu’une marche aléatoire est un processus markovienhomogène avec un nombre infini d’états. Supposons que nous prenonsune marche aléatoire limitée par deux barrières rebondissantes situées à-2 et à +2. . La chaîne de Markov correspondante est stationnaire et

comporte 5 états S={-2,-1,0,1,2}. Le graphe correspondant est ,

1

1/21/2

1/2

1/2

1/21/2

1

NB: La marche aléatoire et ses variantes sont des cas particuliers d’unmodèle plus général appelé “naissance et décès” caractérisé par unematrice de transition tridiagonale.

Marche aléatoire

20

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 539

Chaîne de Markov

En résolvant

0 1

½ ½

0 ½ 0 ½

0 0 ½ 0 ½

0 0 0 1 0

0 0 0

0 0 0

0

Et la matrice de transition est donnée par,

On obtient 1/ 8,1/ 4,1/ 4,1/ 4,1/ 8T

sp

I 0Tsp

NB: Pour le cas général non-stationnaire, les probabilités

d’états dépend de n.

1is

i

p

Marche aléatoire

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 540

La chaîne de MarkovExemple météo:Supposons que la pluie aujourd’hui dépend de la

température des deux derniers jours.Spécifiquement:

La probabilité de pluie aujourd’hui est de 0.5 s’il aplu les deux derniers jours.

La probabilité de pluie aujourd’hui est de 0.4 s’il aplu hier seulement.

La probabilité de pluie aujourd’hui est de 0.3 s’il aplu avant-hier seulement.

La probabilité de pluie aujourd’hui est de 0.2 s’il n’apas plu les deux derniers jours.

Montrez que ce processus peut être modélisé par unechaîne de Markov à 4 états. Trouvez la matrice de transition.

21

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 541

La chaîne de MarkovExemple météo: solutionLes 4 états possibles correspondent au 4 combinaisons possibles dutemps des 2 derniers jours.

0

1

0

1

0.2

0.3

0.4

0.5

0

0

1

1

Rn-1 Rn-2Pour trouver les probabilités de transition, ilfaut considérer les cas possibles aujourd’huiet regarder dans quel état ça nous amènepour recalculer la météo de demain.

P(Rn=1)

00 01

1011

0.8

0.7

0.3

0.5

0.4

0.60.50.2 Exercice: Trouvez les probabilités

des états stationnaires.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 542

Définition: une chaîne de Markov est dite “irréductible” si pour tout i,j,pji

(n) > 0 pour n quelconque. Autrement dit, n’importe quel état Sj peutêtre atteint en un nombre fini de pas temporel (coups d’horloge) à partirde n’importe quel autre état Si .

La méthode la plus efficace pour vérifier l’irréductibilité d’une chaîne estd’en dessiner le graphe.

NB: une marche aléatoire simple non bornée (sans contrainte) n’est pasune chaîne irréductible au sens stricte, car elle n’a pas un nombre finid’états.

Théorème: Une chaîne de Markov irréductible ayant un nombre fini d’étatspossède une distribution des probabilités d’état stationnaire unique.

La chaîne de Markov

22

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 543

Modèles de Markov cachés (HMM)Ce type de modèle est utilisé fréquemment dans l’analyse et la reconnaissance de laparole. Dans la figure suivante, on voit une structure typique d’un HMM à deuxétats. Il s’agit de 2 générateurs de processus aléatoires reliés à un commutateur quiest à son tour gouverné par une chaîne de Markov à deux états. Les positions du

commutateur correspondent aux états 1 et 2 de la chaîne. Le signal observé x(n) à

la sortie du commutateur résulte donc d’un multiplexage aléatoire des deuxprocessus stochastiques générés. Le processus markovien des états ducommutateur est non-observable directement, d’où le nom de processus ou modèlede Markov caché (Hidden Markov Model)

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 544

Modèles de Markov cachés (HMM)Quelques remarques importantes:

Les deux processus générateurs ne sont pas habituellement markoviens.C’est le processus caché (ici le commutateur à deux états) qui est markovien etqui n’est pas observables, d’où le nom de HMM.

Les deux processus générateurs peuvent être continus ou discrets.

Un HMM est un processus stochastique double.

Correspond à un simple HMM, on retrouve 3 types deprobabilités,

Probabilité de l’état initial: probabilité de la sélection étant l’état i

Probabilité d’observation: probabilité de choisir une valeur x(n)sachant qu’elle provient de l’état i

Probabilité de transition: probabilité de choisir à partir de l’état jétant donné que le choix précédent provenait de l’état i

23

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 545

Représentation sous forme de treillis des HMM

Chaque noeud du treillis est l’événement où une observation o(n)est générée alors que le modèle occupait l’état si

Exemple: HMM à trois états

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 546

Pour un processus HMM, on s’intéresse généralement à,

Calculer la probabilité jointe (non conditionnelle) des observationspour fin de classification.

Par exemple, supposons que nous avons plusieurs modèles HMM représentantdifférentes classes de données ou des mots parlés, dans le cas de l’analyse de laparole. On veut déterminer quel modèle HMM est le plus probable d’avoir produittelle séquence observée (ici un mot parlé).

Estimer la séquence des états du processus markovien en fonction du temps

s(n), étant donné la séquence du signal observé .

Par exemple, dans l’observation d’une chaîne de Markov binaire représentant unmessage de télécom dans du bruit additif. La séquence capté par le récepteurconsiste en la séquence du message (ici la séquence des états) plus le bruitadditif. Alors que le message ne peut prendre que deux valeurs (2 états), laséquence observée peut prendre une infinité de valeurs possibles à cause dubruit.

Modèles de Markov cachés (HMM)

0 1, ,...,x nf x x x

0 1, ,..., nx x x

24

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 547

La probabilité jointe des observations pourrait être calculée

à partir de la probabilité jointe du HMM, , i.e.,

Modèles de Markov cachés (HMM) 0 1, ,...,x nf x x x

0 1 0 1, ,..., , , ,..., ,x n nf x x x s s s

0 1 0 1 0 1, ,..., , ,..., , , ,..., ,x n x n ntoutesles séquences s

f x x x f x x x s s s

Or avec la règle de Bayes,

0 10 1 0 1 0 1 0 1

0

, ,..., , , ,..., , , ,..., , ,...,k k

n

x n n x n n s s sk

f x x x s s s f x x x s s s p p

0 1 0 1 0 1 0 1 0 1, ,..., , , ,..., , , ,..., , ,..., Pr( , ,..., )x n n x n n nf x x x s s s f x x x s s s s s s

En supposant les états indépendants et les observations indépendantes pourun même état, nous aurons avec la propriété markovienne,

10 1 0 1

0

, ,..., , , ,..., ,k k

n

x n n k kx s s sk

f x x x s s s f x s p

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 548

Si les états prennent Q valeurs possibles, alors la complexité du processus est

proportionnelle à Qn+1 combinaisons des séquences .

Autrement dit, la complexité augmente exponentiellement en fonction de n.

Exemple:

Avec n observations et Q états dans le modèle HMM:

Qn+1 séquences d’états possibles (pour une topologie ergodique)

Approximativement 2nQ n+1 opérations requises

Pour 100 observations et un HMM à 5 états: environ 1072 opérations !

Heureusement, il existe des algorithmes qui permettent de réduire cette

complexité à une fonction linéaire de la longueur n.

Nous allons sommairement voir trois de ces méthodes:

La méthode de calcul vers l’avant (méthode « forward ») La méthode de calcul vers l’arrière (méthode « backward ») La méthode de Viterbi

Modèles de Markov cachés (HMM)

0 1[ , ,..., ]ns s s

25

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 549

Problèmes de base des HMM

1. Évaluation:1. Problème: calculer la probabilité d’observation de la

séquence d’observations étant donnée un HMM (choix dumodèle):

2. Solution: Algorithme Forward ou Backward

2. Décodage:1. Problème: trouver ou estimer la séquence d’états qui

maximise la probabilité de la séquence d’observations

2. Solution: Algorithme de Viterbi

3. Entraînement:1. Problème: ajuster les paramètres du modèle HMM afin de

maximiser la probabilité de générer une séquenced’observations à partir de données d’entraînement (cas declassification)

2. Solution: Algorithme Forward-Backward (algorithmeBaum-Welch)

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 550

L’algorithme « forward »La probabilité jointe des observations peut être calculée

comme suit à partir de l’algorithme « forward » (vers l’avant).

0 1, ,...,x nf x x x

0 1 0 11 1

, ,..., , ,..., , , ( )n

Q Q

x n xs n n ii i

f x x x f x x x s i n

Où l’on définit

Si l’on définit les évènements A, B, C comme,

0 1 1 1, ,..., , , ( ), ( )k k k kA x x x s j B s i et C x

La probabilité de αi(k) à son tour est calculée à partir des k-1 observations,

0 1( ) , ,..., ,ki xs k kk f x x x s i

1 0 1 1 1

1

( ) , ,..., , , ,k k

Q

i xs s k k k kj

k f x x x x s i s j

26

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 551

La loi des probabilités en chaîne nous donne,

Ce qui nous mène à

Ce qui veut dire que αi(k) peut être calculé de façon récursive avec la

condition initiale,

ou,

( , , ) ( ) ( ) ( )f A B C f A f B A f C B

1 0 1 1 1

1

( ) , ,..., , ( ) ,k

Q

i xs k k k ki j x sj

k f x x x s j P f x s i

1

( ) ( 1) ( )Q

i i k ki j x sj

k k P f x s i

0 0(0) ( )ii s x s

p f x s i

L’algorithme « forward »

( )f A ( )f B A ( )f C B

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 552

Structure en treillis montrant ladépendance parmi les variables

« forward » αi(k).

Graphe illustrant le flux ducalcul pour une variable

« forward » αi(k).

L’algorithme « forward »

27

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 553

Probabilité desétats initiaux

Probabilité des observations (A ou B) lorsqu’on est dans l’état S0

Probabilité des observations (A ou B) lorsqu’on est dans l’état S1

Exemple de l’algorithme « forward »

Probabilité detransition

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 554

L’algorithme « backward »Dans cette méthode, la probabilité jointe voulue s’écrit, 0 1, ,...,x nf x x x

00 1 0 1 0

1

, ,..., , ,..., , ,Q

x n xs ni

f x x x f x x x s i

Si l’on définit

La dernière expression de devient,

1( ) ,...,k

i k n kx sk f x x s i

0 0 0 1 01

Pr ( ) ,...,Q

nx si

s i f x s i f x x s i

0 1, ,...,x nf x x x

0 1 0 01

, ,..., ( )i k

Q

x n s i x si

f x x x p k f x s i

28

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 555

On détermine maintenant une façon récursive pour calculer les βi(k):

Ce qui donne, avec la condition initiale,

1

1

1 2 11

( ) ,...,

, ,..., ,

k

k k

i k n kx s

Q

k k n k kxs sj

k f x x s i

f x x x s j s i

( ) 1, 1,...i n i Q

L’algorithme « backward »

Si l’on définit les évènements A, B, C comme,

2 1 1 1,..., , , ( ), ( )k n k k kA x x s j B s j et C x

( , , ) ( ) ( ) ( )f A B C f A f B A f C B

2 1 1 1 11

( ) ,..., Pr ( )Q

i k n k k k k kx sj

k f x x s j s j s i f x s j

11

( ) ( 1) ( )Q

i j k kj i x sj

k k P f x s j

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 556

Le treillis de calcul est illustré comme suit:

Structure en treillis montrant ladépendance parmi les variables

« backward » βi(k).

Graphe illustrant le flux ducalcul pour une variable

« backward » βi(k).

L’algorithme « backward »

29

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 557

Exemple de l’algorithme « backward »

Probabilité desétats initiaux

Probabilité des observations (A ou B) étant donné que l’on soit dans l’état S0

Probabilité des observations (A ou B) étant donné que l’on soit dans l’état S1

Probabilité detransition

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 558

Estimation de la séquence d’états (Viterbi)

par rapport à s. Cette technique appelé Maximum à postériori (MAP) sera traité

plus en détails dans la section sur les techniques d’estimation. Étant donné que

fx(x) n’est pas une fonction de s, l’estimation MAP est équivalente à maximiser

la densité conjointe . Pour le cas présent, cette densité de probabilitéest donnée par,

, , / ( )x s xs xf s x f x s f x

Une façon d’estimer la séquence d’états s(n) la plus probable étant donnée la

séquence d’observation x(n) est de maximiser la densité conditionnelle,

, ,x sf x s

10 1 0 1

0

, ,..., , , ,..., ,k k

n

x n n k kx s s sk

f x x x s s s f x s p

La maximisation de pour toutes les séquence d’états

est équivalente à maximiser celle de

0 1 0 1, ,..., , , ,..., ,x n nf x x x s s s

0 1, ,..., ns s s 0 1 0 1log , ,..., , , ,..., ,x n nf x x x s s s

, , ,max , max log , min log ,x s x s x sss s

f x s f x s f x s

30

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 559

Estimation de la séquence d’états (Viterbi)

Et en définissant:

On peut ainsi définir le critère de performance avec:

1,

0 0

log , log logk k

n n

x s k kx s s sk k

W f x s f x s p

( ) log , 1 , 0i k kx sV k f x s i i Q k n

1 1( ) log ( )k kji k ks s

B k p s i s j

On obtient alors,

0

( ) ( )n

i jik

W V k B k

La maximisation de W (ou min de –W) consiste à trouver le chemin optimal dans

le treillis à la figure suivante où les termes Vi(k) sont associés avec les nœuds et

les termes Bji(k) avec les branches. C’est l’algorithme de Viterbi.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 560

Estimation de la séquence d’états (Viterbi)

Le chemin optimal trouvé ici sur la figure correspond à la séquence d’états

[s(0)=2, s(1)=1, s(2)=3, s(3)=2,…s(n)=3].

31

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 561

Estimation de la séquence d’états (Viterbi)

La recherche du chemin optimal est basée sur le principe suivant : supposonsqu’un chemin optimal partant de la colonne 0 a été trouvé pour chaque

nœud j de la colonne (k-1) avec une performance Wj(k-1). Un de ces chemins

possibles fait partie du chemin optimal pour n’importe quel nœud des colonnessubséquents. La performance totale du chemin à partir de la colonne 0, qui

passe par le nœud j’ à la colonne (k-1) et qui le relie au nœud i de la colonne

suivante k est donc égale à,

( ) max ( 1) ( ) ( )i j ji ij

W k W k B k V k La procédure de calcul se fait donc de colonne en colonne et vers l’avant en

fonction de n. À chaque colonne k, on calcule la performance Wi(k) pour

chaque nœud i. À la dernière colonne, on choisit parmi Q états restant qui a la

meilleure performance. L’algorithme de Viterbi est la version « forward » de laprogrammation dynamique.

' '( 1) ( ) ( )j i j iW k V k B k

Si le parcours est vraiment optimal, alors le nœud j’ est celui qui maximise

cette quantité. La performance optimale pour chaque nœud i de la colonne kest alors donnée par,

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 562

Estimation de la séquence d’états (Viterbi)Exemple: L’humeur s de votre conjoint(e) est changeant. Il est soit joyeux (i), soit

triste (j). Vous aimeriez estimer ses « états d’âme » à partir de l’expression de son

visage. On a les observations (sourire (k) ou grimace (l)) en fonction du temps. La

probabilité de changer d’humeur est a et donc (1-a) la probabilité de ne pas changer.

b est la probabilité (Bernouilli) que l’expression du visage soit consistante avec l’état

d’âme. Ici, a=0.1, b=0.8, n=200 dans les figures présentées. Faites le diagramme

d’état.

( 1)( 1)

1 ( 1)

a s n ip s n i s n

a s n i

( )( )

1 ( )

b s n ip x n k s n

b s n i

i

j

lk

32

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 563

Estimation de la séquence d’états (Viterbi)On a un HMM à 2 états et 2 processus de Bernouilli sous-jacents avec

probabilités (b et (1-b)). Vous estimez son humeur à l’aide de

l’algorithme de Viterbi. La séquence du bas illustre la comparaison entrela séquence vraie de ses « états d’âme » versus ceux estimés parl’algorithme de Viterbi.

i

pji= a

j

pij= apii= 1-a pjj= 1-a

UNIVERSITÉ DE

SHERBROOKE

Algorithmede ViterbiProbabilités de

transition

Alphabet (valeurspossibles observées)

Séquenced’états laplusprobable

Probabilités initialesdes états

Séquence observée

Estimation de la séquence d’états (Viterbi)

Schéma entrées-sortie de l’algorithme de Viterbi

NB: l’algorithme de Viterbi est un algorithme de traitement en lot(batch processing).

33

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 565

Dans l’exemple d’un processus de Bernouilli du coursprécédent, nous avions rencontré un processus de comptage.

Il fallait compter le nombre de 1s sur une période de temps

relativement longue (« sign test »).

Regardons de plus près ces processus de comptage. Soit N(t)le nombre d’évènements aléatoires ξi se produisant dans un

intervalle de temps [0,t]. En supposant N(0) =0, nous avons,

Processus de comptage

( ) ( ) 0i i ii

N t t se produisant pour t t

( ) : 0ou N t t

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 566

On suppose que les correspondent à unprocessus stationnaire (SSS) et ergodique composé dev.a. positives.

Soit l’espace de probabilité

avec les évènements discrets, nous avons le

processus suivant,

La structure d’un processus de comptage

1er évènementarrivé

2eme 3eme4eme

0

31 2 4

1i i

1i i

, , : : 0tF P F F t

34

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 567

Un processus stochastique {N(t) : t ≥ 0} est dit un

processus de comptage si N(t) représente lenombre total d’évènements qui se sont produits

jusqu’au temps t.

N(t) doit satisfaire les conditions suivantes:

N(t)>0

N(t) est un nombre entier

Si t1< t2, then N(t1) < N (t2) (monotone croissant)

Pour t1< t2, N(t2) - N(t1) égale le nombre

d’évènements se produisant dans l’intervalle [t1, t2]

Processus de comptage

(0) 0N

UNIVERSITÉ DE

SHERBROOKE

Chaque se nomme un accroissement et appartient à

8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 568

Processus de comptage

Accroissements d’un processus de comptage

Soit les intervalles de temps uniformes, 1 2 3( , , ... ...)kI I I I

.kP

1 2 3, , ,..., ...kN N N NPour chaque intervalle, on a un nombre d’évènementscorrespondant,

Les accroissements suivent une loi de probabilité

kN

2 1 2 12 1

( ( )) exp( ( ))( ) ( ) , 0

!

kt t t tPr N t N t k k

k

35

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 569

Processus de comptage

Le processus de comptage est dit à accroissements indépendants si

pour tout intervalle de temps disjoint Ik , les nombres d’évènements Nksont indépendants. Attention, cela ne veut pas dire qu’ils sontstationnaires !

Le processus de comptage est dit à accroissement indépendant

stationnaire si pour tout t > 0, τ > 0, [N(t+τ) - N(t)] a une

distribution qui ne dépend seulement que de τ , la longueur del’intervalle de temps.

Un processus de comptage est dit continu en probabilité si,

Quelques propriétés (suite)

0

0, lim ( ) ( ) 1 0t Pr N t N t

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 570

Processus de Poisson

C’est un processus de comptage , ayant un

taux (intensité) de λ > 0, qui vérifie avec N(0)=0,

les propriétés suivantes:a) Il s’agit d’un processus à

accroissements indépendantsb) Le processus a des accroissements distribués suivant

la distribution de probabilité de Poisson, i.e.

( ) exp( )

( ) ( ) , 0!

k

Pr N t N t k kk

( ) : 0N t t

c) C’est un processus à accroissements stationnaires (SSL)d) C’est un processus localement continu en probabilité

( ) : 0N t t

36

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 571

Processus de Poisson

( )E N t t

Les moments statistiques d’un processus de Poisson

2 2 2 2 2var ( ) ( ) ( )

var ( ) ( )

N t E N t E N t t t t

N t t E N t

2( ) 1 2 1 2 1 2

22 1 2 1 2

( ) 1 2 21 1 2 1 2

( , ) min( , )

,( , )

,

N t

N t

R t t t t t t

t t t t tR t t

t t t t t

Non stationnaire !

( ( )) exp( ( ))

( ) ( ) (0) , 0!

kt tPr N t N t N k k

k

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 572

Processus de PoissonPour arriver à ce dernier résultat, nous utilisons le fait que,

[ ( )] [ (0, )]E N t E N t t

2 2 2 2 2[ ( )] [ (0, )] var ( ) ( )E N t E N t t t N t E N t

21 1 2 1 1 2 1 2 1[ (0, ) ( , )] [ (0, )] [ ( , )] ( ).E N t N t t E N t E N t t t t t

Supposons pour l’instant que , alors les v.a. N(0, t1) and N(t1, t2)sont indépendantes et suivent une loi de Poisson avec les paramètresrespectifs et . Ainsi,

1t )( 12 tt

21 1 2 1 1 2 1 2 1[ (0, ) ( , )] [ (0, )] [ ( , )] ( )E N t N t t E N t E N t t t t t

Or,1 2 2 1( , ) (0, ) (0, )N t t N t N t

21 2 1 ( ) 1 2 1[ (0, ){ (0, ) (0, )}] ( , ) [ ( )].N tE N t N t N t R t t E N t

2 2 2( ) 1 2 1 2 1 1 1 1 2 1 2( , ) ( ) [ ( )] , .N tR t t t t t E X t t t t t t

Et,

1 2t t

37

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 573

Processus de Poisson

, ( ) . .o oPour t t N t est une v a distribuée Poisson

t1 t2 t3

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 574

Processus de Poisson

( ) ( )( ) ,

N t N ty t

accroissement normalisé

Les moments statistiques des accroissements de Poisson

2( ) 1 2 1 2

2 2 2( ) 1 2 1 2

1 1( ) ( ) ( ) ,

,

( , ) ( ) ( ) ,

,

( , ) ( ) ( ) ,

,

y t

y t

E y t E N t E N t

constante indépendant de t

R t t E y t y t constante

Pour le cas non normalisé

R t t E y t y t

indépendant de t invariant en translation

( )y t

2 /

1/

t

Stationnaire au sens large !

38

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 575

La fonction de distribution de est alors donnée par,1

Soit représentant l’intervalle de temps d’arrivé du premier évènement (délai)

à partir de n’importe quel point de référence t0. Pour déterminer la PDF de la

variable aléatoire , nous procédons comme suit: d’abord, nous pouvons

observer que l’évènement est le même que “N(t0, t0+t) = 0 ”, et que

l’évènement complémentaire est le même que l’évènement “N(t0,t0+t) > 0 ” .

1

,1

"" 1 t

"" 1 t

1t

nt

t2

t

1

1er arrivée 2eme arrivée neme arrivée

0t

1 1 0 0

0 0

( ) { } { ( ) 0} { ( , ) 0}

1 { ( , ) 0} 1 t

F t P t P N t P N t t t

P N t t t e

Distribution des intervalles de temps d’inter-arrivéeet des temps d’arrivée d’un processus de Poisson

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 576

La dérivée donne la PDF de

i.e., est une v.a. ayant une PDF exponentielle avec pour moyenne

1

1

( )( ) , 0t

dF tf t e t

dt

1

./1)( 1 E

1

Distribution des intervalles de temps d’inter-arrivéeet des temps d’arrivée d’un processus de Poisson

39

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 577

De façon similaire, prenons tn comme étant le temps d’arrivée du

nième évènement d’un processus de Poisson. Alors, nous trouvons,

Et la PDF correspondante,

Qui représente une distribution gamma pour le temps d’attente

jusqu’au nème évènement.

11 1

1 0

1

( ) ( ) ( )( )

( 1)! !

, t 0( 1)!

n

n

k kn nt t t

tk k

n nt

dF t t tf t e e

dt k k

xe

n

1

0

( ) { } { ( ) }

( )1 { ( ) } 1

!

nt n

knt

k

F t P t t P N t n

tP N t n e

k

Distribution des intervalles de temps d’inter-arrivéeet des temps d’arrivée d’un processus de Poisson

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 578

De plus,

n

iint

1

Distribution des intervalles de temps d’inter-arrivéeet des temps d’arrivée d’un processus de Poisson

Où les sont les intervalles de temps entre l’arrivée du ième évènement

et de l’évènement (i – 1). Notez que les sont des v.a. iids

(indépendantes et identiquement distribuées). Ainsi, en utilisant leurfonction caractéristique on peut montrer que tous les intervalles detemps d’inter-arrivée d’un processus de Poisson sont des variablesaléatoires indépendantes qui suivent une PDF exponentielle ayant pour

paramètres λ.

ii

( ) , 0.i

tf t e t

De façon alternative, sachant que est une v.a. exponentielle, en

répétant l’argument avec un simple décalage de t0 à t0+ τ1, nous

trouvons que est aussi une v.a. exponentielle. On peut donc conclureque les intervalles de temps d’inter-arrivée suivent la même loi.

2

1

40

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 579

Processus à impulsions de Poisson

( )( ) ( ) ,i

i

dN tz t t t à taux

dt

La dérivée d’un processus de Poisson

( )z t

t

2 2( ) 1 2 1 2 1 2

, ( ) (

( ) ,

,

( , ) ( ) ( ) (

)

) ( ),

,

z t

E z t

constante indépendant de t

R t t E z t z t t t

indépendant de t invariant en translatio

Donc z t est stationnaire SSL pour const

n

ant

( )N t ( )z tdt

d )(

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 580

( )

21 1 21 2

( ) ( ) 1 2 22 1 1 2

21 1 2

( , )( )

( ),

N t

N t z t

t t tR t tR t ,t

t t t t

t U t t où est la fonction échelon

( )

( )

( )( ) ,N t

z t

d t d tt constante

dt dt

( ) ( ) 1 2 2( ) 1 2 1 2

1

( , )( ) ( ).N t z t

z t

R t tR t ,t t t

t

Processus à impulsions de Poisson

Pour montrer que z(t) est stationnaire SSL, on peut voir que

Et puisque la corrélation croisée entrée-sortie est égale à ,

La fonction d’autocorrélation de z(t) devient,

41

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 581

Bruit de grenaille “shot noise”

Soit un système linéaire invariant dans le temps ayant une réponse impulsionnelle

h(t) et à l’entrée un processus à impulsion de Poisson z(t).

( ) (0)E s t H

( )z t ( )s t( )h t

( ) ( ) ( )* ( )ii

s t h t t z t h t Le bruit de grenaille devient,

Alors,

et,2 2

( ) ( ) (0) ( ) ( )s tR H h t h t dt

Puisque z(t) est stationnaire SSL, alors le bruit de grenaille est aussi stationnaire

SSL.

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 582

Somme de deux processus de Poisson indépendants

Exercice 1: Trouvez les moments d’ordre 1 et 2 de y(t)

Exercice 2: Si

Soit,1 2( ) ( ) ( )y t N t N t

Alors,

1 2 1 2( ) exp( ( ) )

( ) , 0!

kt t

Pr y t k kk

1 2( ) ( ) ( )y t N t N t

Trouvez Pr[(y(t) = k] ainsi que les moments d’ordre 1 et 2 de y(t)

Ainsi la somme de deux processus de Poisson indépendants est aussi unprocessus de Poisson ayant pour paramètre .)( 21 t

42

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 583

Ce processus représente parexemple un signal télégraphique oude télécommunications numériques.Notez que les instants de transition

{ti} sont aléatoires. Même si N(t)n’est pas stationnaire, on peut

montrer que y(t) est stationnaireSSL.

( )( ) ( 1)N ty t

01

ti

t

t

( )N t

t

( )y t

t1

Arrivées dePoisson

1

1t

Fonction d’un processus de Poisson

Soit le processus binaire défini par,

Exercice: trouvez la PDF et les moments 1 et 2 de y(t)

« Basculeur poissonnien »

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 584

Distribution conditionnelle des temps d’arrivéesde Poisson

Théorème: Supposons que N(t)= n, les n temps d’arrivée t1, t2,…tnont la même distribution que les statistiques de l’arrangement ordonné

correspondant à n variables aléatoires indépendantes distribuées

uniformément dans l’intervalle (0, t).

1 10s n nf (t ,…t | n)= n! / tn, < t …< t

Corrolaire : Lorsque tn= t, le sous-ensemble constitué de t1,…tn-1possède une distribution d’un ensemble de n-1 v.a iid uniformément

distribuées dans l’intervalle (0,t).

Pour une séquence aléatoire x1,…xn , l’arrangement ordonné

statistique du ieme ordre est la ieme plus petite valeur, notée x(i) .

43

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 585

Si un processus de Poisson avec N(t) = n, alors n évènements se sont

produits dans l’intervalle de temps [0,t]

Soit t1,…tn les temps d’arrivée de ces n évènements.

Alors la distribution des temps d’arrivée t1,…tn est la même que la

distribution de l’arrangement ordonné de n variables aléatoires

identiques et indépendantes uniformément distribué sur [0,t].

Ceci est raisonnable intuitivement, car le processus de Poisson a desaccroissements stationnaires et indépendants. Aussi, nous nousattendons à ce que les temps d’arrivé soit uniformément distribués surl’intervalle [0,t].

Distribution conditionnelle des temps d’arrivéesde PoissonAutrement dit:

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 586

Un processus de Poisson est un processus markovien à saut, i.e. il a lapropriété markovienne avec un espace d’état discret en temps continu.

Il n’est pas stationnaire.

On peut voir ce processus comme la généralisation stochastique d’unprocessus de comptage déterministe.

Une v.a. distribuée Poisson est le cas limite d’une v.a. distribuéebinomiale (n très grand et p très petit, λ = np).

La loi de Poisson est attribuable à Siméon D. Poisson (mathématicienfrançais 1781-1840). Il la publia en 1837 dans un ouvrage: Recherchesur la probabilité de jugements en matière criminelle et en matièrecivile.

Quelques remarques sur les processus de Poisson

Processus de Poisson

44

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 587

Dans un processus de poisson ordinaire, seulement un évènement se

produit à un temps d’arrivée t (voir figure à gauche). Dans un processus

de Poisson composé, un nombre aléatoire d’évènements, Ct se produit

simultanément à chaque temps d’arrivée t (figure de droite).

t1t

2t

nt

t

1t

2t

nt

31C 22C 4iC

Processus de Poisson Processus de Poisson composé

Processus de Poisson composé

Représentation graphique d’un processus de poissoncomposé (qui est un processus stochastique double)

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 588

Soit {N(t), t 0, N(0)=0} un processus de Poisson et soit

{zi, i 1} une famille de variables aléatoires iid, (ex. bruit blanc)

indépendantes du processus de Poisson.

Si on définit

Alors {x(t), t 0} est un processus de Poisson composé.

Exemple: L’arrivée d’un bus à une gare d’autobus est modélisé par unprocessus de Poisson. Le nombre de passagers arrivant sur chaquebus est indépendant et distribué identique (iid). Le nombre de gensqui arrivent à la gare avant le temps t, sera modélisé par un processus

de Poisson composé x(t).

( )

1

( ) , 0N t

i

i

x t z t

Processus de Poisson composé

45

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 589

Exercice simple: supposons que les familles migrent dans

une région à un taux hebdomadaire de Poisson λ = 2,i.e. deux familles par semaine. Si le nombre de personnesdans chaque famille est indépendant et prend pour valeur1, 2, 3, 4 avec une probabilité respective de 1/6, 1/3, 1/3,1/6, quelle est la valeur de la moyenne et de la variance

de x(t), le nombre d’individus qui migrent dans la régionpour une période de 5 semaines ?

Processus de Poisson composé

Moments statistiques d’un processus de Poissoncomposé:

E[x(t)] = λt E[zi]Var[x(t)]=λt E[zi]

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 590

Autre exemple:

Supposons que le nombre de clients qui quittent unsupermarché après un temps t suit un processusde Poisson. Supposons maintenant que le montantdépensé par client est indépendant et distribuéidentique (iid). Le montant total dépensé ausupermarché après un temps t sera modélisé par

un processus de Poisson composé x(t).

Processus de Poisson composé

46

UNIVERSITÉ DE

SHERBROOKE8-févr.-13 D Gingras - UdeS - GEI 756 Bloc 2 Semaine 591

Applications du modèle de Poisson

Génie électrique (systèmes de files d’attentes )télécommunications numériques, téléphonie, trafic de donnéesetc. Analyse et diagnostique des pannes.

Métrologie optique, astronomie, recensement

Chimie, physique nucléaire, radioactivité

Biologie, biogénétique (ex. nombre de mutations), recensementd’espèces

Économétrie, finance et assurance (nombre d’actions, nombrede réclamations etc…)

Histoire: nombre d’occurrence d’un évènement par intervalle detemps (ex. nombre de bombes allemandes tombées sur Londrespar mois lors de la 2e guerre mondiale).

Exemple historique célèbre: (Bortkiewicz, 19e siècle)-nombre desoldats de la cavalerie prussienne tués chaque année par uncoup de sabot d’un cheval qui rue….(sic!).