Cours de Modélisation stochastique - Paris...

87
Cours de Modélisation stochastique Etienne Birmelé 2019-11-21

Transcript of Cours de Modélisation stochastique - Paris...

  • Cours de Modélisation stochastiqueEtienne Birmelé

    2019-11-21

  • 2

  • Table des matières

    1 Préface 5

    2 Modèle de Galton-Watson et séries génératrices 72.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Séries génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . . . 14

    3 Chaînes de Markov, des mouvements de particules à PageRank 233.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Chaînes de Markov à espaces d’états finis . . . . . . . . . . . . . 253.3 Modèle de migration de particules : urne d’Ehrenfest . . . . . . . 353.4 Pagerank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4 Files d’attente et Processus de Poisson 434.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 464.3 Exemple d’application : loi limite de la taille d’une file d’attente 50

    5 TD1 - Séries génératrices et processus de Galton-Watson 55

    6 TD2 - Chaîne de Markov 59

    7 TD3 - Files d’attente 65

    8 TD1 - Corrigés 69

    9 TD2 - Chaîne de Markov - Corrigés 77

    3

  • 4 TABLE DES MATIÈRES

  • Chapitre 1

    Préface

    Les buts de ce cours sont

    — d’introduire quelques situations dans lesquelles le recours à un modèlealéatoire est utile, voire nécessaire

    — de décrire des outils mathématiques qui permettent d’étudier ce modèlepour en tirer des enseignements sur le comportement moyen ou à longterme

    — de discuter les modèles

    Il est en cela une introduction à l’application des outils mathématiques à la mo-délisation, telle que pratiquée dans de nombreux domaines appliquées, commel’économie ou la biologie.

    Certaines parties de ce cours sont issues de cours anciennement donnés parJean-Claude Fort et Florent Benaych-Georges. Merci à eux d’avoir partagé leursnotes.

    5

  • 6 CHAPITRE 1. PRÉFACE

  • Chapitre 2

    Modèle de Galton-Watsonet séries génératrices

    2.1 Un exemple

    On considère une expérience consistant à regarder le taux de prolifération d’unepopulation de cellules en culture.

    Pour cela, on part d’une cellule unique et on observe la population à intervalleréguliers. On suppose de plus que chaque cellule présente à l’observation n aun nombre de filles X à l’instant n qui suit une loi de Poisson de paramètreλ.

    Cette loi de Poisson cache en fait trois possibilités :

    1. Si X = 0, la cellule est morte2. Si la cellule a survécu sans se diviser, X = 1.3. Si la cellule s’est multipliée et que toutes ses descendantes ne sont pas

    mortes, X ≥ 1.

    On suppose de plus que les valeurs de X pour toutes les cellules présentesà l’instant n sont indépendantes et que la loi de X est invariante d’unegénération à l’autre.

    La valeur de λ peut être réglée par exemple en modifiant la richesse en nutri-ments du substrat. Une question naturelle est alors de savoir s’il est possiblede prédire l’évolution de la population en fonction de λ. Peut-on notammentprédire sa taille moyenne après n générations ou sa probabilité d’extinction ?

    Le code suivant permet de simuler l’expérience précédente sur n générationsavec une valeur λ donnée.

    7

  • 8CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    0

    100

    200

    300

    0.0 2.5 5.0 7.5 10.0generations

    taill

    e

    Exemples de trajectoires

    Figure 2.1 – Trajectoires

    GaltonWatson = function(n,lambda){

    size = 1 #initialisation de la population à une celluletraj=c(1) #contiendra l'évolution de la population

    for (i in 1:n){#on tire size valeurs suivant une Poisson(lambda) et on les additionne. On obtient la nouvelle valeur de la populationsize = sum(rpois(size,lambda))traj = c(traj,size)

    }

    return(traj)}

    La figure 2.1 montre l’évolution de la population sur dix générations pour dixexpériences indépendantes menées avec λ = 1.5. On y observe une grande varia-bilité, et notamment sept populations qui croissent et trois populations qui sesont éteintes.

    La figure 2.2 montre l’évolution de la taille moyenne au bout de dix générationset de la probabilité différentes valeurs de λ. On a l’impression d’y voir un chan-gement de régime aux alentours de λ = 1 : il semble que la population s’éteint

  • 2.2. SÉRIES GÉNÉRATRICES 9

    de toute manière pour lambda > 1 et qu’elle devient très grande dans ce cas.

    La suite de ce chapitre consiste en l’étude théorique de ce modèle, avec la miseen évidence de ces deux régimes. L’outil théorique utilisé pour ce faire est lanotion de série génératrice d’une loi de probabilités discrète.

    2.2 Séries génératrices

    2.2.1 Définition

    Definition 2.1. Soit X une variable aléatoire à valeur dans N. La série entièredéfinie par

    ϕX(z) = EzX =+∞∑k=0

    P(X = k)zk (2.1)

    est de rayon de convergence au moins 1 puisque∑+∞

    k=0 P(X = k) = 1. La fonctionϕX est donc définie sur ] − 1, 1].

    Elle est appelée fonction génératrice de X.

    Example 2.1 (Bernoulli). X ∼ B(p)

    ϕX(z) = P(X = 0)z0 + P(X = 1)z1 = 1 − p+ pz (2.2)

    Example 2.2 (Binomiale). X ∼ B(n, p)

    ϕX(z) =n∑

    k=0

    (n

    k

    )pk(1 − p)n−kzk

    =n∑

    k=0

    (n

    k

    )(pz)k(1 − p)n−k

    = (1 − p+ pz)n

    Example 2.3 (Poisson). X ∼ P(λ)

  • 10CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    0

    50

    100

    150

    200

    0.5 1.0 1.5lambdas

    moy

    enne

    sTaille moyenne

    0.0

    0.2

    0.4

    0.6

    0.5 1.0 1.5lambdas

    prop

    ortio

    ns

    Proportion de survie

    Figure 2.2 – Taille moyenne et probabilité de survie

  • 2.2. SÉRIES GÉNÉRATRICES 11

    ϕX(z) =+∞∑k=0

    λk

    k!e−λzk

    = e−λ+∞∑k=0

    (λz)k

    k!

    = eλ(z−1)

    Example 2.4 (Géométrique). X ∼ G(p), avec q = 1 − p

    ϕX(z) =+∞∑k=0

    pqk−1zk

    = pz+∞∑l=0

    qlzl

    = pz1 − qz

    Proposition 2.1. ϕX = ϕY si et seulement si X = Y p.s.

    Démonstration. Si X = Y p.s., les deux fonctions génératrices sont égales defaçon évidente.

    Inversement, si ϕX = ϕY , l’unicité du développement en série entière entraîneque P(X = k) = P(Y = k) pour tout k.

    2.2.2 Sommes de variables indépendantes

    Proposition 2.2. Soient X et Y des v.a. indépendantes. Alors

    ϕX+Y = ϕXϕY

    En particulier, si X1, . . . , Xn sont des v.a. indépendantes et identiquement dis-tribuées,

    ϕX1,...,Xn = ϕnX

  • 12CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    Démonstration. Avec des séries entières : Pour tout k,

    P(X + Y = k) =∑l=0

    P(X = l, Y = k − l)∑l=0

    P(X = l)P(Y = k − l) par indépendance

    On reconnait alors la formule de la multiplication des séries entières.Avec des probabilités : CommeX et Y sont indépendantes, E(f(X)g(Y )) =

    E(f(X))E(g(Y )). En particulier, pour tout |z| < 1,

    E(zXzY ) = E(zX)E(zY )

    2.2.3 Dérivées de ϕX et moments de X

    Proposition 2.3. Soit p ∈ N. Si EXp existe, alors ϕX est p fois dérivable sur] − 1, 1[. De plus, si ϕ(p)X existe et est continue en 1,

    ϕ(p)X (1) = E X(X − 1) . . . (X − p+ 1)

    En particulier,

    EX = ϕ′

    X(1)

    varX = ϕ′′

    X(1) + ϕ′

    X(1) − ϕ′2X(1)

    Démonstration. Une série entière étant indéfiniment dérivable sur l’intérieur deson domaine de convergence, ϕ(p)X existe pour |z| < 1 et

    ϕ(p)X (z) =

    +∞∑k≥p

    k(k − 1) . . . (kp + 1)zk−p

    Le fait que EXp existe signifie que∑+∞

    k=0 P(X = k)kp converge. Or, pour |z| < 1,

    |k(k − 1) . . . (kp + 1)zk−p| ≤ kp

    donc, par le théorème de convergence dominée,

    limz→1

    ϕ(p)X (z) =

    +∞∑k=0

    P(X = k)k(k − 1) . . . (kp + 1)

  • 2.2. SÉRIES GÉNÉRATRICES 13

    Le deuxième membre est égal à E X(X − 1) . . . (X − p+ 1) et le premier vautϕ

    (p)X (1) par continuité de ϕ

    (p)X .

    La démonstration des cas particuliers de l’espérance et de la variance est laisséeen exercice.

    Example 2.5 (Bernoulli). Si X ∼ B(p),

    ϕX(z) = 1 − p+ pzϕ′X(z) = p

    ϕ′′

    X(z) = 0

    On retrouve E(X) = p et varX = p(1 − p).

    Example 2.6 (Binomiale). Si X ∼ B(n, p),

    ϕX(z) = (1 − p+ pz)n

    ϕ′X(z) = np(1 − p+ pz)n−1

    ϕ′′

    X(z) = n(n− 1)p2(1 − p+ pz)n−2

    On retrouve E(X) = np et varX = np(1 − p).

    Example 2.7 (Poisson). Si X ∼ P(λ),

    ϕX(z) = eλ(z−1)

    ϕ′X(z) = λeλ(z−1)

    ϕ′′

    X(z) = λ2eλ(z−1)

    On retrouve E(X) = λ et varX = λ.

    Example 2.8 (Géométrique). Si X ∼ G(p)

    ϕX(z) =pz

    1 − qz= z − 1

    1 − qz+ 1

    ϕ′X(z) =p

    (1 − qz)2

    ϕ′′

    X(z) =2pp

    (1 − pz)3

    On retrouve E(X) = 1p et var(X) =q

    p2 .

  • 14CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    2.2.4 Cas d’une variable continue : transformée de Laplace

    Dans le cas d’une variable aléatoire continue positive, à densité f , on peut définirla transformée de Laplace, définie pour t ≥ 0 par

    ϕX(t) = E(e−tX) =∫ +∞

    0e−txf(x)dx

    Les propriétés des fonctions génératrices se généralisent, en particulier queϕX+Y (t) = ϕX(t)ϕY (t) si X et Y sont indépendantes, et que les valeurs desdérivées successives en 0 donnent les moments de la loi (démonstrations laisséesen exercice, sur le même modèle que celle des fonctions génératrices).

    Proposition 2.4. Soit X et Y deux variables aléatoires continues positives etindépendantes. Alors ϕX+Y = ϕXϕY .

    Proposition 2.5. Soit X une variable aléatoire continue positive, telle que EXpexiste. Alors ϕX est p fois dérivable et , pour tout 0 ≤ k ≤ p,

    ϕ(k)(0) = (−1)kEXk

    Remarque :La notion de transformée de Laplace peut être étendue à des variables non-positives en commençant l’intégrale en −∞. Il faut cependant alors vérifier laconvergence de l’intégrale généralisée.

    Ainsi, la loi normale, dont la densité est équivalente en l’infini à un terme enKe−Cx

    2 admet une transformée de Laplace en intégrant entre −∞ et +∞. Eneffet, pour tout t,

    ∫ +∞−∞ e

    −tx−Kx2dx converge.

    2.3 Processus de Galton-Watson

    2.3.1 Présentation du modèle

    Le but de ce modèle est de modéliser l’évolution d’une population en tempsdiscret. Il a été introduit en 1874 par Francis Galton et Henry Watson pourrépondre au problème de la probabilité d’extinction des noms aristocratiquesdans l’angleterre victorienne. Le fait qu’il ait été appliqué à des noms de fa-mille explique son hypothèse simplificatrice consistant à considérer des arbresgénéalogiques où les parents sont uniques.

    Sous ce modèle, la population initiale se réduit à un ancêtre unique. Cet ancêtrea ensuite un nombre aléatoire de descendants, et chacun des descendants de

  • 2.3. PROCESSUS DE GALTON-WATSON 15

    même , et ainsi de suite. On fait de plus l’hypothèse que le nombre des fils dechaque individu est identiquement distribué et indépendant du parent.

    Le processus peut alors être modélisé par deux suites de variables aléatoires :

    1. (Zn, n ≥ 0) où Zn est le nombre d’individus de la génération n

    2. (Xi,j , i ≥ 0, j ≥ 1) où Xi,j est le nombre de descendants de l’individu jde la génération i.

    On a alors, pour tout n ≥ 1,

    Z0 = 1Z1 = X0,1

    Z2 =Z1∑

    j=1X1,j

    · · · · · ·

    Zn+1 =Zn∑j=1

    Xn,j ,

    la suite devenant uniformément nulle si elle s’annule une première fois (extinc-tion).

    2.3.2 Espérance et variance de Zn

    On suppose connue ϕ, la fonction génératrice commune des variables (Xi,j)i,j .Soit Gn la fonction génératrice de Zn. Alors

    Proposition 2.6. a) Gn+1(s) = Gn(ϕ(s)) pour tout n ≥ 0.

    b) Gn(s) = ϕ(n)(s), où ϕ(n) désigne la composition n fois de ϕ avec elle-même.

    Démonstration. On démontre la propriété b) par récurrence, la propriété a)étant démontrée au passage.

    — Pour n = 0, G0(s) = 1 car Z0 = 1.— Supposons la propriété vraie au rang n.

  • 16CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    Gn+1(s) = E(s

    ∑Znj=1

    Xn,j )= E

    ( +∞∑k=0

    s

    ∑Znj=1

    Xn,j IZn=k)

    =+∞∑k=0

    E(s

    ∑Znj=1

    Xn,j IZn=k)

    ∗ ∗

    =+∞∑k=0

    E(s

    ∑Znj=1

    Xn,j )P(Zn = k) car Zn est indépendante des Xn,j=

    +∞∑k=0

    Eϕ(s)kP(Zn = k)car les Xn,j sont indépendantes

    = Gn(ϕ(s))= ϕ(n)(ϕ(s)) par hypothèse de récurrence= ϕ(n+1)(s)

    Remarque : En **, l’espérance et la somme peuvent être échangées car toutes lesvariables sont positives (la somme infinie pose problème sinon). On peut éviterle recours à cet argument dans le cas où les Xi,j sont bornés par Q, car alorsZn ≤ Qn (et cela paraît raisonnable dans le cas des humains).

    La propriété précédente permet de déduire la fonction génératrice de Zn enfonction de celle de Z1 (comme Z1 = X0,1, elle est de fonction génératrice ϕ).On peut alors en déduire l’espérance et la variance de Zn en fonction de cellede Z1.

    Proposition 2.7. a) Si m = EZ1 < +∞, alors EZn = mn.

    b) Si σ2 = varZ1 < +∞, alors varZn =nσ2 si m = 1mn(mn−1)

    m(m−1) σ2 si m ̸= 1

    Démonstration. a) En dérivant l’égalité de la Proposition 2.6 a),

    G′n+1(s) = G′n(ϕ(s))ϕ′(s)

    Pour s = 1 et comme ϕ′(1) = EZ1 = m, on obtient que

    G′n+1(s) = mG′n(s)

    Comme de plus G1 = ϕ, on obtient par récurrence que G′n(1) = mn. On endéduit la propriété a) puisque Gn est la fonction génératrice de Zn.

  • 2.3. PROCESSUS DE GALTON-WATSON 17

    b) On démontre cette propriété par récurrence, en se basant sur la Proposi-tion 2.3 :

    varZn = G′′

    n+1(1) +G′n(1) − (G′n(1))2 (2.3)

    Pour n = 1, la propriété est vraie par définition et l’équation (2.3) entraîne que

    σ2 = ϕ′′(1) + ϕ′(1) − (ϕ′(1))2 (2.4)

    Supposons que la propriété est vraie pour n. Pour appliquer l’équation (2.3), ilfaut commencer par déterminer G′′n+1(1). Or,

    G′′

    n+1 =[G′noϕ(s)ϕ′

    ]′ = G′′noϕ.ϕ′2 +G′noϕ.ϕ′′ (2.5)On l’applique en 1, en utilisant l’équation (2.3) pour remplacer G′′n(1), l’équation(2.4) pour remplacer ϕ′′(1), et le fait que G′n(1) = mn.

    G′′

    n+1(1) = (varZn −mn +m2n)m2 +mn(σ2 −m+m2)= m2varZn +mnσ2 +m2n+2 −mn+1

    En le réinjectant dans l’équation (2.3), on obtient

    varZn+1 = m2varZn +mnσ2 (2.6)

    Si m = 1 : L’équation (2.6) avec varZn = nσ2 donne facilement que varZn+1 =(n+ 1)σ2 et que la propriété est vraie au rang n+ 1.

    Si m ̸= 1 : Par hypothèse de récurrence,

    varZn+1 = m2mn(mn − 1)m(m− 1)

    σ2 +mnσ2

    = mn+1(mn+1 − 1)m(m− 1)

    σ2

    2.3.3 Probabilité d’extinction

    L’étude de l’espérance et la variance nous dit que la taille moyenne sur uneinfinité de trajectoires tend vers l’infini si le nombre moyen de descendants est

  • 18CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    supérieur à 1, vers 0 si il est inférieur. Cela est somme toute assez intuitif etsurtout ne répond pas à toute la problématique.

    En effet, la figure 2.1 montre que pour une même loi de X, la population peuts’étendre pour certaines expériences et grandir pour d’autres. Une question lé-gitime (et qui était la question initiale d’intérêt pour ce modèle) est alors dedéterminer la probabilité pour une loi de X donnée que la population s’éteigne.

    Soit E l’évènement désignant le fait que la population s’éteint.

    E = ∪n≥1{Zn = 0}

    Les évènements {Zn = 0} constituant une suite croissante d’évènements,

    P(E) = limn→+∞

    P(Zn = 0)

    Theorem 2.1. P(E) est la plus petite solution dans [0, 1] de l’équation ϕ(s) = s.

    Si m ≤ 1, P(E) = 1, sinon 0 ≤ P(E) < 1.

    Démonstration. La propriété 2.6 b) entraîne que Gn(s) = ϕ(Gn−1(s)). En par-ticulier

    Gn(0) = ϕ(Gn−1(0)P(Zn = 0) = ϕ(P(Zn−1 = 0))

    limn→∞

    P(Zn = 0) = limn→∞

    ϕ(P(Zn−1 = 0))

    limn→∞

    P(Zn = 0) = ϕ( limn→∞

    P(Zn−1 = 0)) car ϕ est continue

    P(E) = ϕ(P(E))

    P(E) est donc une solution de ϕ(s) = s.

    Soit q la plus petite solution de ϕ(s) = s appartenant [0, 1]. Comme ϕ estcroissante, ϕ(n) l’est également. Par conséquent,

    ϕ(n)(0) ≤ ϕ(n)(q)P(Zn = 0) ≤ q

    P(E) ≤ q par passage à la limite.

    Par minimalité de q, on a donc forcément P(E) = q.

    De plus, ϕ est de dérivée et de dérivée seconde positive puisque :

  • 2.3. PROCESSUS DE GALTON-WATSON 19

    ϕ′(s) =∑k≥1

    kP(Z1 = k)sk−1

    ϕ′′(s) =

    ∑k≥2

    k(k − 1)P(Z1 = k)sk−2

    En particulier, ϕ′ est croissante.

    Cas 1 : P(Z1 = 0) + P(Z1 = 1) ̸= 1

    Il existe un k > 1 tel que P(Z1 = k) > 0. La fonction ϕ′′ est alors strictement

    positive donc ϕ′ est strictement croissante.

    Si m ≤ 1, on a pour tout s < 1, (ϕ(s) − s)′ = ϕ′(s) − 1 < ϕ′(1) − 1 ≤ 0. Doncϕ(s) − s > ϕ(1) − 1 = 0. 1 est donc la plus petite racine de ϕ(s) = s.

    Si m > 1, comme ϕ′(0) = P(Z1 = 1) < 1 et ϕ′(1) = m > 1, il existe un uniques0 tel que ϕ′(s0) = 1. Une étude de signe de ϕ(s) − s donne alors

    0 s0 1ϕ′(s) − 1 − +ϕ(s) − s ↘ ↗ 0

    Cas 2 : P(Z1 = 0) + P(Z1 = 1) = 1

    Alors ϕ(s) = α+ (1 − α)s avec α = P(Zn = 0). Donc ϕ(s) = s entraîne α = αspuis s = 1. Ce cas correspond de plus bien à m ≤ 1.

    2.3.4 Comportement asymptotique

    2.3.4.1 Cas sous-critique (m < 1)

    Dans ce cas, la probabilité d’extinction est de 1, si bien que la variable d’interêtdevient le temps τ de l’extinction. Comme {τ > n} = {Zn ̸= 0} et que P(Zn =0) = Gn(0),

    P(τ > n) = 1 −Gn(0)

    Etudier τ revient donc à étudier la vitesse de convergence de Gn(0) vers 1.

    Proposition 2.8. Supposons m < 1 et soit τ le temps d’extinction du processus.Il existe C > 0 tel que P(τ > n) ∼ Cmn.

    Démonstration. Le théorème de Taylor implique qu’il existe cn ∈ [Gn(0), 1] telque

  • 20CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    0.0

    0.5

    1.0

    1.5

    0.0 0.5 1.0 1.5s

    yfonction

    phi(s)

    s

    m1

    Figure 2.3 – Illustration pour les différents cas de valeurs de m

    ϕ(Gn(0)) − ϕ(1) = ϕ′(1)(Gn(0) − 1) +ϕ′′(cn)

    2(Gn(0) − 1)2

    1 −Gn+1(0) = m(1 −Gn(0)) −ϕ′′(cn)

    2(1 −Gn(0))2

    La fonction ϕ(3) étant continue et positive,

    0 ≤ ϕ′′(cn) ≤ ϕ′′(1)

    donc,

    m− ϕ′′(1)(1 −Gn(0)) ≤1 −Gn+1(0)1 −Gn(0)

    ≤ m (2.7)

    L’inégalité de droite entraîne que 1−Gn(0)1−G0(0) ≤ mn et que par conséquent, comme

    G0(0) = 0, 1 −Gn(0) ≤ mn.

    L’égalité 2.7 entraîne alors que ∀n ≥ N1

  • 2.3. PROCESSUS DE GALTON-WATSON 21

    m− ϕ′′(1)mn ≤ 1 −Gn+1(0)1 −Gn(0)

    ≤ m

    1 − ϕ′′(1)mn−1 ≤ m−(n+1)(1 −Gn+1(0))m−n(1 −Gn(0))

    ≤ 1

    ln(1 − ϕ′′(1)mn−1) ≤ ln(m−(n+1)(1 −Gn+1(0))) − ln(m−n((1 −Gn(0))) ≤ 0(2.8)

    Or, ln(1 − x) ≥ −2x pour 0 ≤ x < 1 suffisamment proche de 0. Il existe doncN tel que, ∀n ≥ N

    ln(1 − ϕ′′(1)mn−1) ≥ −2ϕ′′(1)mn−1 (2.9)

    La série de terme général mn−1 convergeant car m < 1, on en déduit que la sériede terme général négatif ln(1 − ϕ′′(1)mn−1) converge également. L’équation2.8 entraîne alors que la série de terme général ln(m−(n+1)(1 − Gn+1(0))) −ln(m−n((1 − Gn(0))) converge également, vers un réel néagtif K. La sommepartielle d’ordre n de cette série valant ln(m−n((1 −Gn(0))), on en déduit quelimn→+∞ m−n((1 −Gn(0)) = eK = C. Ceci démontre le théorème.

    2.3.4.2 Cas critique (m = 1)

    Dans ce cas, la probabilité d’extinction est également de 1. L’approche est sem-blable au cas sous-critique, la seule différence étant la vitesse de convergence.

    Proposition 2.9. Supposons m < 1 et soit τ le temps d’extinction du processus.Soit σ2 la variance de Z1. Alors P(τ > n) ∼ 2nσ2 .

    Démonstration. cf TD.

    2.3.4.3 Cas sur-critique (m > 1)

    Dans ce cas, la probabilité d’extinction est inférieure à 1 et l’espérance de Znvaut mn et tend donc vers l’infini. Les variations de Zn autour de sa moyennesont données par le théorème suivant.Proposition 2.10. Il existe une v.a. positive W avec EW = 1 et varW =

    σ2

    m(m−1) telle que

    limn→+∞

    Znmn

    = W presque surement

    De plus, P(W > 0) = 1 − P(E).

  • 22CHAPITRE 2. MODÈLE DE GALTON-WATSON ET SÉRIES GÉNÉRATRICES

    Démonstration. Admis

  • Chapitre 3

    Chaînes de Markov, desmouvements de particules àPageRank

    3.1 Un exemple

    On considère une machine qui peut se trouver dans deux états F (elle fonc-tionne) et D (elle est en défaillante). Lorsqu’elle fonctionne un matin, la proba-bilité qu’elle soit en panne le lendemain est de 150 . Lorsqu’elle est en panne, laprobabilité qu’elle soit réparée pour le lendemain et qu’elle fonctionne donc ànouveau est 14 .

    La question qui se pose est alors de savoir s’il est possible de déterminer laprobabilité que la machine soit en panne dans n jours, sachant son état actuel,ou encore quelle est le nombre moyen de jours par an pendant lesquels elle esten panne.

    Le code suivant permet de simuler une trajectoire de la machine sur N jours.trajectoire_machine

  • 24CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    0.00

    0.25

    0.50

    0.75

    1.00

    0 25 50 75 100jours

    etat

    Exemples de trajectoires

    Figure 3.1 – Trajectoires

    else{etat = rbinom(1,1,q)

    }traj

  • 3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 25

    0.00

    0.25

    0.50

    0.75

    1.00

    0 10 20 30 40 50jours

    prob

    a_F

    Probabilités de fonctionnement

    Figure 3.2 – Probabilités de fonctionnement en fonction de l’état initial

    3.2 Chaînes de Markov à espaces d’états finis

    3.2.1 Définitions : chaînes de Markov et matrices marko-viennes

    Definition 3.1. Soit E ensemble fini. Une chaîne de Markov homogène à valeursdans E est une suite (Xn) de variables aléatoires telles que pour tout n,

    P(Xn+1|(X0, . . . , Xn)) = P(Xn+1|Xn) = P(X1|X0) (3.1)

    L’équation (3.1) signifie que l’avenir ne dépend du passé que via le présent(mémoire courte).

    On introduit, pour la suite, une chaîne de Markov (Xn) à valeurs dans unensemble E. Pour x, y ∈ E, on pose

    P (x, y) := P(Xn+1 = y|Xn = x),

    qui par hypothèse ne dépend pas de n.

  • 26CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    Proposition 3.1. Pour tout x,∑y

    P (x, y) = 1.

    En d’autres termes, P peut être vu comme une concaténation de lois de proba-bilité discrètes (une par ligne). On parle alors de matrice markovienne.

    Definition 3.2. Une matrice (indéxée par un ensemble quelconque) est ditemarkovienne si ses coordonnées sont ≥ 0 et ses lignes se somment toutes à 1.

    L’écriture en termes matriciels de la liste des lois de transition a pour avan-tage d’ouvrir la possibilité d’utiliser le calcul matriciel pour décrire des lois detransition sur plusieurs générations :

    Theorem 3.1. — Pour tout n, k, pour tout x, y,

    P(Xn+k = y|Xn = x) = P k(x, y)

    où P (k) désigne la kieme puissance de P .— Pour tout n,

    P(Xn) = µ0P (n)

    où µ0 désigne la loi de X0.

    Démonstration. Le second point est une application du premier pour k = n etn = 0. Pour démontrer le premier, on raisonne par récurrence sur k.

    + Pour k = 1, P(Xn+1 = y|Xn = x) = P (x, y) par définition de la chaîne deMarkov.

    + Supposons k ≥ 2 et l’égalité vraie pour k − 1. Alors

    P(Xn+k = y|Xn = x)∑z∈E

    P(Xn+k = y,Xn+k1 = z|Xn = x)∑z∈E

    P(Xn+k = y|Xn+k1 = z,Xn = x)P(Xn+k1 = z|Xn = x)∑z∈E

    P(Xn+k = y|Xn+k1 = z)P (k−1)(x, z)∑z∈E

    P (z, y)P (k−1)(x, z)

    P (k)(x, y)

    où on a utilisé à la fois la récurrence et la relation de Markov à la troisièmeligne.

  • 3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 27

    Cette proposition nous dit que si on connaît la distribution d’un très grandnombre (théoriquement d’un nombre infini) de marcheurs à l’instant 0, ainsi quela matrice de transition, il est possible de déterminer par des outils d’algèbrelinéaire leur distribution après n pas.

    Attention cependant, la prévisibilité ne concerne que la distribution de la po-pulation des marcheurs, la position d’un marcheur précis reste bien aléatoire.

    La théorie des chaînes de Markov est cependant bien plus forte que cela. En effet,sous certaines conditions sur la matrice de transition, cette distribution a unelimite quand le nombre de pas tend vers l’infini, et déterminer cette distributionrevient à déterminer un vecteur propre de P t.

    Pour aborder ces résultats, il faut commencer par lister les cas pour lesquels cerésultat n’est pas vérifié afin de les écarter.

    3.2.2 Classification des états et des chaînes

    3.2.2.1 Chaîne irréductible

    La première caractéristique dont une chaîne devra faire preuve pour que sadistribution converge est d’être irréductible, ce qui veut dire qu’il faut pouvoiraller de tout état à tout autre état en un nombre fini de pas avec une probabiliténon nulle.

    Une définition plus formelle nécessite d’introduire une classification des états.Definition 3.3. Soient x, y ∈ E.

    — On note x −→ y si P (x, y) > 0.— Un *chemin de longueur n ≥ 1 de x à y* est une suite finie x0 −→ x1 −→

    x2 −→ · · · −→ xn de points de E tel que x0 = x et xn = y.— On note x 99K y si, pour un certain n ≥ 1, il existe un chemin de longueur

    n de x à y, càd si il existe n ≥ 1 tel que Pn(x, y) > 0.— Un état x est *récurrent* si,

    ∀x′ ∈ E, x 99K x′ =⇒ x′ 99K x.

    — Un point x est *transitoire* s’il n’est pas récurrent.

    On note T l’ensemble des points transitoires et R l’ensemble des points récur-rents.

    Lemma 3.1. — Si x est récurrent, alors tout y tel que x 99K y est aussirécurrent.

    — La relation x 99K y est transitive.— Sur R, la relation 99K est une relation d’équivalence, dont les classes sont

    appelées *classes de récurrence*.

  • 28CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    Démonstration. Laissée en exercice.

    Definition 3.4. La chaîne de Markov est dite irréductible s’il n’y a pas d’étattransitoire et s’il n’y a qu’une classe de récurrence.

    3.2.2.2 Chaîne apériodique

    Definition 3.5. La chaîne de Markov est dite apériodique si il existe n0 tel quepour tout n ≥ n0 et pour tout x, y ∈ E,

    P (n)(x, y) > 0.

    Il existe d’autres caractérisations de l’apériodicité, faisant appel à l’arithmétique,équivalentes à celle-ci. Une condition suffisante très simple est par exemple lasuivante :

    Proposition 3.2. La chaîne de Markov est apériodique si elle est irréductibleet il existe x ∈ E tel que P (x, x) > 0.

    3.2.2.3 En pratique

    Il est en pratique toujours possible de se ramener à des chaînes irréductiblesapériodiques :

    — les chaînes intéressantes en modélisation sont toujours apériodiques— une chaîne non irréductible a un graphe qui se décompose en composantes

    irréductibles qui peuvent être étudiées séparément et en composantestransitoires qui sont de toute manière vides après un grand nombre depas.

    3.2.3 Mesure invariante, convergence et théorème ergo-dique

    Les résultats principaux des chaînes de Markov peuvent maintenant être énoncés,à condition d’avoir défini la notion de mesure invariante.

    3.2.3.1 Mesure invariante

    Definition 3.6. Une mesure (càd une loi de probabilité) µ sur E est diteinvariante si une des deux conditions équivalentes suivantes est satisfaite :

    (i) µP = µ(ii) Si X0 ∼ µ, alors Xn ∼ µ pour tout n.

  • 3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 29

    En terme d’interprétations, cela veut dire que si un nombre infini de marcheurssont répartis sur les états suivant une telle mesure et que chacun fait un pasaléatoire, les marcheurs seront toujours répartis suivant cette même mesure àl’issue de ce pas.

    Il s’agit donc d’un invariant de la chaîne au sens probabiliste, et qu’il est possiblede déterminer en utilisant les outils classiques de l’algèbre linéaire puisqu’il s’agitd’un vecteur propre à gauche de P associé à la valeur propre 1.

    Les résultats centraux de la théorie des chaînes de Markov montre l’existence etl’unicité d’une telle mesure pour une chaîne irréductible apériodique ainsi quela convergence vers cette mesure quelle que soit la mesure initiale.

    3.2.3.2 Existence et unicité d’une mesure invariante

    Theorem 3.2 (Perron-Frobenius). Soit P la matrice d’une chaîne de Markovirréductible. Alors :

    1. 1 est une valeur propre simple.2. tout vecteur propre à gauche associé à 1 a toutes ses coordonnées de même

    signe. En particulier, celui de somme 1 correspond bien à une distributionde probabilités.

    3. si la chaîne est apériodique, toute autre valeur propre λ vérifie |λ| < 1.

    En d’autres termes, toute chaîne de Markov irréductible admet une unique me-sure de probabilité invariante.

    Démonstration. Existence : Soit q0 un état, considéré comme l’état de départde la chaîne. Soit T le temps du premier retour en q0. On définit λ(q) commele nombre moyen de passage en q avant T

    λ(q) = ET∑

    i=11Xi=q

    =+∞∑i=0

    P(Xi = q, i ≤ T )

    =∑r∈S

    +∞∑i=0

    P(Xi = q,Xi−1 = r, i ≤ T )

    =∑r∈S

    +∞∑i=0

    P(Xi−1 = r, i− 1 ≤ T )Prq

    = (tλP )λ(q)

  • 30CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    L’unique multiple de λ de somme 1 est donc bien une mesure de probabilitéinvariante.

    Unicité : Soit µ une mesure telle que µ(q0) = 1. Alors

    µ(q) =∑

    r

    µ(r)Prq

    = Pq0q +∑r ̸=q0

    ∑t

    µ(t)PtrPrq

    = Pq0q +∑r ̸=q0

    Pq0rPrq +∑r ̸=q0

    ∑t ̸=q0

    ∑u

    µ(u)PutPtrPrq

    =∑n≥0

    ∑u1,...,un−1 ̸=q0

    Pq0u1 . . . Pun−1q

    =∑n≥0

    P(Xn+1 = q, T > n+ 1)

    = λ(q)

    Remarques :

    — Soit q un état. La preuve appliquée pour q0 = q implique que

    π(q) = λ(q)∑r λ(r)

    = 1E(Tq)

    où Tq est le temps du premier retour en q.— Si la chaîne n’est pas irréductible, la partie concernant la monotonie du

    signe du vecteur propre est encore valable. Par contre, l’espace proprepeut être de dimension supérieure : il n’y a plus unicité de la mesureinvariante.

    3.2.3.3 Convergence vers la mesure invariante

    Theorem 3.3. Soit P la matrice d’une chaîne de Markov irréductible etapériodique et µ l’unique mesure invariante associée. Alors, pour tout X0,limtn→+∞ π0Pn =t µ.

    De plus, la vitesse de convergence est en |λ2|n, où λ2 est la valeur propre devaleur absolue maximale parmi les valeurs propres différentes de 1.

  • 3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 31

    Démonstration. On se contente de démontrer cette propriété dans le cas où P estdiagonalisable. Soit (1, λ2, . . . , λN ) les valeurs propres de P rangées par valeursabsolues décroissantes (avec éventuellement λi = λi+1 en cas de valeur propremultiple). Dans ce cas, il existe une base de vecteurs propres (µ, u2, . . . , uN ) deRN , ui étant associé à λi. On peut écrire

    tX0 = αt1µ+∑i≥2

    αtiui

    d’où

    tX0Pn = αt1µ+

    ∑i≥2

    αiλni ui

    ||tX0Pn − αt1µ|| = |λ2|n||u2 +∑i≥3

    ( λiλ2

    )nui||

    ||tX0Pn − αt1µ|| ≤ C|λ2|n Cconstante

    On en déduit que tX0Pn tend vers α1µ à la vitesse |λ2|n. Le fait que tX0Pn etµ sont des distributions implique que α1 = 1.

    3.2.3.4 Théorème ergodique

    Theorem 3.4. On considère une chaîne de Markov irréductible apériodique demesure invariante π et f : S → R une fonction telle que

    ∑q∈S πq|f(q)| < +∞.

    Alors,

    limn→+∞

    1n

    n∑i=0

    f(Xi) =∑q∈S

    πqf(q)

    Démonstration.1n

    n∑i=0

    f(Xi) =∑q∈S

    Nq(n)n

    où Nq(n) est le nombre de fois où la chaîne se trouve en q entre les instants 0et n.

    On note Siq la variable aléatoire dénotant le temps de la ieme excursion entredeux passsages successifs de la chaîne en q. Alors

    S0q + . . .+ SNq(n)−1q ≤ n < S0q + . . .+ SNq(n)q

    Par la propriété de Markov, les Siq sont indépendantes et identiquement distri-bués, de même loi que le temps de retour Tq en q. La loi des grands nombresimplique donc que

  • 32CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    limNq(n)→+∞

    S0q + . . .+ SNq(n)q

    Nq(n)= E(Tq)

    Le fait que limn→+∞ Nq(n) = +∞, l’encadrement précédent et l’égalité E(Tq) =1

    π(q) (cf remarque plus haut) imploquent le théorème.

    Remarque : On retrouve en prenant f = Id,

    limn→+∞

    1n

    n∑i=0

    Xi = Eπ

    c’est-à-dire un résultat plus fort que la loi des grands nombres puisque les Xine sont pas indépendants. Générer une longue trajectoire est suffisant, même siles Xi successifs ne sont pas indépendants.

    En d’autres termes, il y a deux moyens de déterminer la loi limite d’unechaîne de Markov irréductible apériodique :

    1. Déterminer le vecteur propre à gauche de la matrice de transition associéà la valeur propre 1.

    2. Simuler une ou plusieurs très longues chaînes et regarder la fration dutemps passé en chacun des états.

    Cette dernière approche est notamment celle utilisé per PageRank ou par lesméthodes dites MCMC (Monte-Carlo Markov Chain).

    3.2.4 Probabilité d’une trajectoire et estimation de la ma-trice de transition

    3.2.4.1 Aparté sur l’estimation

    La modélisation mathématique d’un processus aléatoire réel comporte en généraltrois étapes :

    — La proposition d’un modèle qui comprend en général des paramètres (laloi de X dans le cas de Galton-Watson, les valeurs de la matrice detransition dans le cas des Chaînes de Markov)

    — L’étude théorique de ce modèle afin d’établir quels sont les comporte-ments prédictibles. Cette partie correspond à une étude probabiliste dumodèle.

    Remarque : Attention, il s’agit de processus aléatoires, le mot prédiction désigneici le fait de savoir déterminer des lois suivies par le processus, en aucun cas desupprimer le côté aléatoire d’une trajectoire individuelle.

  • 3.2. CHAÎNES DE MARKOV À ESPACES D’ÉTATS FINIS 33

    — Dans le cas d’applications concrètes, il faut être capable de déterminer lesvaleurs à donner aux paramètres. Il faut alors recueillir des observationset faire une estimations des paramètres, c’est-à-dire une étude statistiquedu modèle.

    Une des manières les plus courantes de faire cette estimation est le principe dumaximum de vraisemblance. Notons θ l’ensemble des paramètres, vivant dansun espace Θ, et x un vecteur d’observations de la variable d’intérêt X.

    L’estimation par maximum de vraisemblance consisite en les deux étapes sui-vantes :

    1. Déterminer la vraisemblance

    l(θ) = P(X = x|θ)

    En d’autres termes, la vraisemblance est la probabilité d’observer cequ’on observe si la vraie valeur du paramètre est θ.

    2. Choisir comme estimation de θ la valeur

    θ̂ = argmaxθ∈Θ

    ℓ(θ)

    En d’autres termes, on choisit le jeu de paramètres admissibles tels quela probabilité d’observer ce qu’on observe est la plus grande possible.

    Remarques :

    — On utilise souvent la log-vraisemblance, définie comme le logarithme de lavraisemblance, plutôt que la vraisemblance. Cela est dû au fait que c’estune fonction qui est souvent plus simple à optimiser, et que le logarithmeétant strictement croissant, cela ne change rien à la valeur de θ̂.

    — L’estimation ne donne à priori pas les vraies valeurs des paramètres maisseulement une approximation au vu des données. Ainsi, si 100 lancersd’une pièce parfaitement équilibrée donnent 52 pile et 48 face, l’estima-teur de la probabilité de faire pile sera de 0.52. L’étude de l’erreur faiteentre estimateur et vraie valeur est le coeur des cours d’estimation sta-tistique.

    3.2.4.2 Retour au chaînes de Markov

    Les chaînes de Markov sont exemple simple de mise en oeuvre de l’estimationpar maximum de vraisemblance.

    En effet, supposons que l’on observe une trajectoire x = (x0, . . . , xn) sur K étatset qu’on veuille déterminer P̂ .

    Notre intuition nous dit qu’un choix raisonnabme pour P̂ij est la proportion,parmi toutes les fois où la trajectiore s’est trouvée en i, du nombre de fois où

  • 34CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    le pas a été fait par j. L’estimateur du maximum de vraisemblance confirme cechoix.

    En effet, en notant PP la probabilité quand la matrice de transition vaut P ,

    ℓ(P ) = PP (X0 = x0, . . . , Xn = xn)= PP (X0 = x0)PP (X1 = x1|X0 = x0) . . .PP (Xn = xn|Xn−1 = xn−1, . . . , X0 = x0)

    Par l’hypothèse de markovianité,

    ℓ(P ) = PP (X0 = x0)PP (X1 = x1|X0 = x0) . . .PP (Xn = xn|Xn−1 = xn−1)= PP (X0 = x0)Px0x1 . . . Pxn−1xn= PP (X0 = x0)

    ∏1≤i,j≤K

    PNijij

    où Nij désigne le nombre de transitions de l’état i vers l’état j dans la trajectoire.

    Par conséquent,

    log ℓ(θ) = log(PP (X0 = x0)) +∑

    1≤i,j≤KNij log(Pij)

    Déterminer P̂ revient alors à chercher l’endroit où cette fonction atteint sonmaximum sous la contrainte que P est une matrice markovienne.

    Le fait que P est markovienne s’écrit sous la forme de K contraintes (une parligne) :

    ∀1 ≤ i ≤ K,K∑

    j=1Pij = 1

    En introduisant autant de multiplicateurs de Lagrange que de contraintes, onobtient que pour obtenir les extremas locaux de notre fonction sous contraintes,il suffit d’étudier les extremas locaux de la fonction

    g(P, λ1, . . . , λk) = log ℓ(P ) +K∑

    i=1λi(

    K∑j=1

    Pij − 1)

    = log(PP (X0 = x0)) +∑

    1≤i,j∈KNij log(Pij) +

    K∑i=1

    λi(K∑

    j=1Pij − 1)

  • 3.3. MODÈLE DE MIGRATION DE PARTICULES : URNE D’EHRENFEST35

    Comme∂g

    ∂Pij= NijPij

    + λi,

    son annulation en P̂ donne

    P̂ij = −Nijλi

    . (3.2)

    L’annulation de la dérivée suivant λi redonne la contrainte∑K

    j=1 P̂ij = 1.

    On en conclut que −∑K

    j=1Nijλi

    = 1 soit λi = −∑K

    j=1 Nij .

    En réinjectant cette dernière équation dans (3.2),

    P̂ij =Nij∑K

    j=1 Nij

    ce qui correspond bien à la fraction des transitions allant vers j parmi cellespartant de i.

    3.3 Modèle de migration de particules : urned’Ehrenfest

    3.3.1 Problème et modèle

    On considère deux volumes A et B reliés par une petite ouverture. Les observa-tions prouvent que les pressions dans les deux volumes finissent par s’équilibrer.On cherche à comprendre ce phénomène.

    Pour cela, on fait l’hypothèse (tout à fait raisonnable) que la pression est pro-portionnelle au nombre de particules présentes dans le volume.

    De plus, on considère un pas de temps très faible, pendant lequel il est rai-sonnable de considérer qu’au plus une particule passe par l’ouverture. Cetteparticule est choisie de façon équiprobable parmi toutes les particules, ce quirevient à dire que le mouvement s’effectue de façon proportionnelle à la pression.

    On note N le nombre total de particules et Xt le nombre de particules dans levolume A au temps t.

    On obtient alors, en notant ϵ la probabilité qu’aucune particule ne passe parl’ouverture pendant la pas de temps,

  • 36CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    P(Xt+1 = Xt|Xt) = ϵ

    P(Xt+1 = Xt − 1|Xt) = (1 − ϵ)XtN

    P(Xt+1 = Xt + 1|Xt) = (1 − ϵ)N −XtN

    Xt étant un entier entre 0 et n, on peut reécrire ces transitions sous la formed’une chaîne de Markov à N + 1 éléments avec la matrice de probabilité

    P =

    ϵ 1 − ϵ(1 − ϵ) 1N ϵ (1 − ϵ)

    N−1N

    · · · · · ·(1 − ϵ) kN ϵ (1 − ϵ)

    N−kN

    · · · · · ·(1 − ϵ) N−1N ϵ (1 − ϵ)

    1N

    1 − ϵ ϵ

    3.3.2 Convergence de la chaîne

    Il existe des boucles de longueur 1, ce qui implique que la chaîne est apériodique.De plus, comme il y a une arête de k à k + 1 et inversement pour tout k, il estpossible de construire un chemin de tout sommet vers tout sommet, ce qui assurele caractère irréductible de la chaîne.

    Le théorème 3.3 assure donc que la chaîne converge vers sa mesure invariante.

    Proposition 3.3. La mesure invariante π est la loi B(N, 1/2), càd

    ∀0 ≤ k ≤ N, π(k) = 12N

    (N

    k

    )

    Démonstration. On commence par montrer par récurrence que

    ∀0 ≤ k ≤ N, π(k) =(N

    k

    )π(0)

    La propriété est trivialement vraie pour k = 0.

    Pour k = 1, le fait que π est invariante entraîne (en regardant la premièrecoordonnée de l’égalité πT = πTP ) que

    ϵπ(0) + 1 − ϵN

    π(1) = π(0),

  • 3.3. MODÈLE DE MIGRATION DE PARTICULES : URNE D’EHRENFEST37

    d’où on déduit que π(1) = Nπ(0). La propriété est donc vraie au rang 1.

    Supposons qu’elle est vraie pour k et k − 1, avec k ≥ 2. Le fait que π estinvariante entraîne (en regardant la kieme coordonnée de l’égalité πT = πTP )que

    (1 − ϵ)N − (k − 1)N

    π(k − 1) + ϵπ(k) + (1 − ϵ)k + 1N

    π(k + 1) = π(k).

    D’où

    π(k + 1) = Nk + 1

    (π(k) − N − (k − 1)

    Nπ(k − 1)

    )Par l’hypothèse de récurrence et le triangle de Pascal, on en déduit que la formuleest vraie au rang k + 1.

    La propriété est donc vraie par récurrence.

    π étant une mesure de proba,∑N

    k=0 π(k) = 1. Or,

    N∑k=0

    π(k) =N∑

    k=0

    (N

    k

    )π(0) = 2Nπ(0)

    Par conséquent, π(0) = 12N .

    3.3.3 Retour au problème

    L’étude de la chaîne de Markov donne la limite de la pression sous notre modèle.Cette distribution est strictement positive pour tout k entre 0 et N , y comprispour 0. Cela signifie qu’il y a une probabilité non nulle dans ce modèle que, defaçon spontanée, toutes les particules se retrouvent dans le volume B et que levolume A soit vide.

    Ceci contredit de façon évidente les observations qu’on peut voir par exemplelorsqu’un pneu se dégonfle. Il faut donc interroger la pertinence de ses résultats.

    Deux remarques s’imposent ici :

    — Le modèle est sans doute trop simpliste, les particules n’étant pas tout àfait indépendantes.

    — Le fait qu’un évènement ait une probabilité positive ne veut pas direqu’il sera observé. La probabilité de reécrire l’intégrale de Victor Hugoen tapant au hasard sur un clavier est non nulle. . .

    Or, la loi binomiale est fortement concentrée autour de son espérance :

  • 38CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    Proposition 3.4 (Chernoff bound). Soit Y ∼ B(N, 1/2). Alors, pour toutt ≥ 0,

    P(|Y −N/2| ≥ t) ≤ 2e− 2t2

    3N

    Démonstration. On notera tout d’abord, par symétrie, qu’il suffit de montrerque P(Y −N/2 ≥ t) ≤ e− 2t

    23N .

    Soit Xi les variables de Bernoulli telles que Y =∑N

    i=1 Xi. Pour tout s > 0, enappliquant l’inégalité de Markov à la variable esY , puis en utilisant l’indépen-dance des Xi,

    P(Y −N/2 ≥ t) = P(es(Y −N/2) ≥ est)≤ e−st−sN/2E(esY )

    ≤ e−st−sN/2N∏

    i=1E(eXi)

    ≤ e−st−sN/2(1 + es

    2)N

    On peut montrer (à faire en exercice) que 1+es

    2 ≤ e(es−1)/2. D’où

    P(Y −N/2 ≥ t) ≤ e−s(t+ N2 )+ N2 (es−1)

    En posant δ = 2tN et en choisissant s = log(1 + δ),

    P(Y −N/2 ≥ t) ≤ eN2 (δ−(1+δ) log(1+δ)) (3.3)

    Comme (à faire en exercice), log(1 + δ) ≥ δ1+δ/2 ,

    δ − (1 + δ) log(1 + δ)) ≤ − δ2

    2 + δ

    Comme δ ≤ 1, on obtient que

    P(Y −N/2 ≥ t) ≤ eN2 (− δ2

    3 ) = e− 2t2

    3N

    La probabilité d’une déviation t ≫√N tend vers 0 exponentiellement vite. Par

    conséquent, |X − N2 | reste de l’ordre de√N , ce qui pour un N très grand n’est

    pas différentiable de N2 quand on mesure une pression de gaz !

  • 3.4. PAGERANK 39

    3.4 Pagerank

    3.4.1 Introduction

    Google domine le marché des moteurs de recherche grâce à son algorithme declassement des page ordre de pertinence. L’algorithme évolue continuellementdepuis sa création et n’est pas entièrement public, mais l’idée principale a étépubliée par Sergey Brin and Larry Page en 1998.

    Le web est un chaos : les contenus sont hétérogènes et les pages évoluent constam-ment. L’idée novatrice a été de ne pas classer les pages suivant leur contenu maissuivant la façon dont les pages pointent les unes vers les autres.

    La structure de graphe orientée que Google appose au web est la suivante :V = {pages web} et pour v, w pages web, v → w si v contient un lien vers w.

    La question devient alors Comment déterminer les noeuds les plus importantsde ce graphe ?.

    1. Comptage naïf : on constate que les pages importantes sont la cible denombreux liensOn peut penser à renverser l’affirmation et à déclarer que le nombre deliens entrants est un indicateur de l’importance d’une page

    — Pour : simple à calculer— Contre : - Pas forcément vrai : une page pointée par peu de pages elles-

    mêmes très importantes n’est-elle pas importante ? - Facile à contourneren créant de nombreuses pages pointant sur celle qu’on veut faire remon-ter au classement. - Plus une page affiche de lien, plus elle a d’influencedans le classement final

    2. Comptage pondéré :Toutes les pages ont la même quantité de poids àdistribuer.

    mi = (importance de la page i)

    =∑j→i

    1nombre de pages pointées par la page j

    — Pour : facile à calculer— Contre : - Donner le même poids à distribuer à toutes les pages ne semble

    pas pertinent - Facile à contourner en créant de nombreuses pages poin-tant sur celle qu’on veut faire remonter au classement.

    3. Comptage pondéré récursif : une page est importante si de nom-breuses pages importantes pointent vers elle.

  • 40CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

    mi = (importance de la page i) (3.4)

    =∑j→i

    mjnombre de pages pointées par la page j

    (3.5)

    — Pour : - correspond mieux à l’intuition - tricher est plus difficile— Contre : système linéaire (certes creux) à résoudre, avec autant de va-

    riables que de pages web

    3.4.2 Chaîne de Markov

    La dernière solution est celle retenue. En effet, en l’examinant de plus près, onse rend compte que l’équation (3.5) est en fait l’équation

    mP = m

    où P (i, j) = 1d+(j) avec d+(j) le degré extérieur du sommet j.

    En d’autres termes, le vecteur m recherché est une mesure invariante de lachaîne de Markov définie par P , qui n’est rien d’autre qu’une marche aléatoiresur le graphe qui choisit le prochain mouvement uniformément parmi les arêtessortantes du graphe courant.

    Cependant, vu la taille du graphe et donc de la matrice, il est illusoire de vou-loir déterminer numériquement son spectre et donc l’ensemble de ses mesuresinvariantes.

    L’idée est alors de déterminer des mesures empiriques en simulant des marcesaléatoires et d’utiliser le Théorème 3.3 pour assurer leur convergence.

    Cependant, la chaîne obtenu par marche aléatoire n’est à priori par irréductible.En effet, une page web vers laquelle aucune autre page ne pointe est forcémentun état transitoire puisque le marcheur ne peut pas y accéder.

    L’idée suivie est alors de mélanger la marche aléatoire précédente avec un choixtotalement aléatoire de la position suivante.

    Soit P la matrice de transition de la marche aléatoire sur le graphe et Q lamatrice de transition dont tous les coefficients valent 1N , où N désignele nombrede pages.

    Une chaîne de Markov ne suivant que P correspond au but recherché mais n’apas de mesure invariante unique. Une chaîne de Markov ne suivant que Q estirréductible apériodique mais a pour seule mesure invariante la mesure uniforme.

    On considère alors la chaîne de matrice de transition

    Pβ = (1 − β)P + βQ

  • 3.4. PAGERANK 41

    Pour tout β > 0, la présence du terme βQ implique une probabilité de transitionnon nulle entre toute paire d’état et donc l’irréductibilité et l’apériodicité de lachaîne.

    En pratique, PageRank consiste alors à déterminer la distribution Xn au boutde n pas à l’aide de la relation

    tXn+1 =t XnPβ

    En pratique, cela requiert à priori des produits matrice x vecteur de très grandetaille et peut donc être très lent. Cependant, en raison de la structure particulièrede Q,

    tXn+1 = (1 − β)tXnP + βtXn

    Le produit tXnP peut lui être effectué en un temps beaucoup plus court car lamatrice P est creuse (la grande majorité de ses coefficients sont des zéros).

    Pour n assez grand, Xn peut alors être considéré comme une assez bonne ap-proximation du m cherché. Il est à noter que pour cette convergence ne soit pastrop longue, β n’est pas choisi trop petit (de l’ordre de 0.15 en pratique). Onobtient ainsi un classement de l’ensemble des pages, dont on peut tirer les pagescontenant le mot-clé qui concerne la recherche.

    L’algorithme présenté ici est bien sûr une simplification de celui qui gouverne ef-fectivement les moteurs de recherche. Ceux-ci prennent par exemple entretempsd’autres critères que la connectivité entre pages en compte pour déterminer lesmatrices de transition.

  • 42CHAPITRE 3. CHAÎNES DE MARKOV, DES MOUVEMENTS DE PARTICULES À PAGERANK

  • Chapitre 4

    Files d’attente et Processusde Poisson

    4.1 Un exemple

    Considérons un site internet qui reçoit des requêtes lui venant d’utilisateursen ligne, ne pouvant être traitées que une par une et qui prennent un tempsaléatoire à être traité.

    Faisons l’hypothèse (qui sera justifiée plus tard) que l’intervalle de temps entrel’arrivé de deux requêtes siut une loi de Poisson de paramètre λ. Supposons deplus que le temps de traitement d’une requête suit une loi d’espérance µ, quidépend de la capacité de calcul du serveur qui traite la requête.

    L’intérêt de l’opérateur est de choisir une valeur de µ qui garantit un tempsd’attente raisonnable sans pour autant surinvestir en capacité de calcul. Laquestion est aloes de savoir comment évoluera la taille de la file d’attente enfonction de λ et µ.set.seed(300)

    queuing_trajectory = function(lambda,mu,tmax){#génère une file d'attente entre 0 et tmax avec des arrivées#suivant une exponentielle(lambda) et de départs suivant une#exponentielle(mu)

    currenttime

  • 44 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    times

  • 4.1. UN EXEMPLE 45

    0

    10

    20

    30

    0 25 50 75 100times

    size

    Exemple de trajectoire

    Figure 4.1 – Exemple d’une trajectoire

    0

    1000

    2000

    3000

    4000

    5000

    0 3 6 9size

    prob

    abili

    ty

    Echelle standard

    1000

    200030004000

    0.0 2.5 5.0 7.5 10.0size

    prob

    abili

    ty

    Echelle logarithmique

    Figure 4.2 – Distribution de la taille de la file

  • 46 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    arrivals

  • 4.2. PROCESSUS DE POISSON 47

    Supposons qu’on veut modéliser un processus d’arrivée sans mémoire, c’est-à-dire que la probabilité qu’un client arrive dans le prochain intervalle de longueur∆t est indépendant du moment d’arrivée du dernier client.

    En d’autres termes, si X désigne le temps d’attente entre deux clients, on sou-haite que

    P(X ≥ t+ ∆t|X ≥ t) = P(X ≥ ∆t)

    La famille de loi vérifiant cette propriété est la la famille des lois exponentielles,définies sur [0,+∞[ par la densité f(x) = λe−λx.

    Definition 4.1. On considère une suite de variables aléatoires (τi){i ∈ N} i.i.d,de loi exponentielle E(λ) modélisant les temps successifs entre deux arrivées. Onnote Tn =

    ∑ni=1 τi.

    Le processus de Poisson Nt d’intensité λ est la variable aléatoire comptant lenombre d’arrivée précédant l’instant t :

    Nt =∑n≥1

    1(Tn ≤ t)

    Proposition 4.1. Le nom de processus de Poisson est dû à la propriété sui-vante.

    P(Nt = n) =(λt)n

    n!e−λt

    En d’autres termes, Nt ∼ P(λt).

    Pour démontrer ce réultat, il faut d’abord déterminer la loi d’une somme de v.a.exponentielles i.i.d.

    Proposition 4.2. Soit τ1, . . . , τn des varibales aléatoires indépendantes suivantdes lois exponentielles de paramètre λ. Alors leur somme Tn suit une loi dedensité f(x) = λn x

    n−1

    (n−1)!e−λx. Cette loi est appelée loi Gamma de paramètres λ

    et n.

    Démonstration. Par récurrence sur n. Pour n = 1, on retrouve bien la densité

  • 48 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    d’une loi exponentielle Supposons la propriété vraie pour n− 1.

    FTn(t) = FTn−1+τn(t)

    =∫ ∫

    x+y≤tλn−1

    xn−2

    (n− 2)!e−λxλe−λydxdy

    =∫ t

    x=0λn−1

    xn−2

    (n− 2)!e−λx

    ( ∫ t−xy=0

    λe−λydy)dx

    =∫ t

    x=0λn−1

    xn−2

    (n− 2)!e−λx

    (1 − e−λ(t−x)

    )dx

    =∫ t

    x=0λn−1

    xn−2

    (n− 2)!e−λxdx− e−λt

    ∫ tx=0

    λn−1xn−2

    (n− 2)!dx

    En dérivant par rapport à t, on obtient

    fTn(t) = λn−1tn−2

    (n− 2)!e−λt − e−λtλn−1 t

    n−2

    (n− 2)!+ λne−λt

    ∫ tx=0

    xn−2

    (n− 2)!dx

    = λne−λt[ xn−1(n− 1)!

    ]t0

    = λn tn−1

    (n− 1)!e−λt

    La proposition est donc encore vraie au rang n.

    Revenons à la démonstration du fait que le nombre d’arrivées en un temps tsuit une loi de Poisson.

    Démonstration.

    P(Nt = n) = P(Tn ≤ t, Tn + τn+1 > t)

    =∫

    0≤x≤t

    ∫x+y>t

    λnxn−1

    (n− 1)!e−λxλe−λydxdy

    =∫

    0≤x≤tλn

    xn−1

    (n− 1)!e−λx

    ( ∫ +∞t−x

    λe−λydy)dx

    =∫

    0≤x≤tλn

    xn−1

    (n− 1)!e−λxe−λ(t−x)dx

    = e−λt (λt)n

    n!

  • 4.2. PROCESSUS DE POISSON 49

    On peut en fait démontrer une propriété plus forte :

    Proposition 4.3. Soit t1 < t2 < . . . < tn une suite de points de temps. Alorsles variables Nt1 , Nt2 −Nt1 , Nt3 −Nt2 , . . . , Ntn −Ntn−1 sont indépendantes etde loi P(λ(tk − tk−1))1≤k≤n.

    Démonstration. On se contente de démontrer le cas n = 2. Le cas général peutse démontrer de la même façon, l’écriture est simplement beaucoup plus lourde.

    Soit t et s les deux points de temps.

    P(Nt = p,Ns −Nt = q) = P(Tp ≤ t < Tp + τp+1 < Tp+q ≤ s < Tq + τq+1)

    On a Sp ∼ Γ(p, λ), τp+1 ∼ Eλ, Tp+q −Tp − τp+1 ∼ Γ(q− 1, λ) et τq+1 ∼ Eλ. Cesvariables sont de plus indépendantes donc

    P(Nt = p,Ns −Nt = q) =∫ ∫ ∫ ∫

    0≤u≤t

  • 50 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    E(f(T1, . . . , Tn)1Nt=n) =∫

    0≤s1≤...≤sn≤t

  • 4.3. EXEMPLE D’APPLICATION : LOI LIMITE DE LA TAILLE D’UNE FILE D’ATTENTE51

    — Un seul client peut être servi à la fois— Le temps d’un service d’un client suit une loi exponentielle de paramètre

    µ, et les temps de service des clients sont indépendants— La file peut atteindre une longueur infinie.

    La question est de déterminer le comportement de la file du point de vue de sataille et de la durée du temps d’attente d’un individu. La loi de la taille de lafile est difficile à étudier, nous allons plutôt nous concentrer sur sa distributionasymptotique.

    La première propriété consiste à se placer à un temps donné et à établir laprobabilité que la prochaine arrivée se fasse avant le prochain départ.

    Proposition 4.5. On se place à un instant t. On note A = { le prochain évènement est une arrivée }et D = { le prochain évènement est un départ }. La probabilitée de ces évène-ments ne dépend pas de t car ils sont régis par des lois exponentielles.

    On a alors

    P(A) = λλ+ µ

    P(D) = µλ+ µ

    Démonstration.

    P(A) =∫ +∞

    0

    ∫ +∞0

    Ix µ, la file devient presque surement infinie.Si λ < µ, la file se résorbe plus vite qu’elle ne s’agrandit. Elle a très peu de

    chances de devenir infinie et va donc essentiellement se comporter commeune chaîne de Markov, et tendre vers une distribution limite qui sera àétablir.

  • 52 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    Nous allons démontrer ces résultats, du moins en partie.

    Notons A(t) le nombre d’arrivées ayant eu lieu à l’instant t et D(t) le nombrede départ. On a alors N(t) = A(t) −D(t).

    4.3.1 λ > µ

    Comme A(t) suit un processus de Poisson de paramètre λ, E(A(t)) = λt.

    Comme D(t) est inférieur à un processus de Poisson de paramètre µ (car desdéparts ne peuvent avoir lieu que si N(t) ≥ 1), E(D(t)) ≤ µt.

    Par conséquent, E(N(t)) ≥ (λ− µ)t donc la file tend en espérance vers l’infini.

    4.3.2 λ < µ

    On découpe le temps en petits intervalles de longueur h.

    On a alors que A(t+ h) −A(t) suit une loi de Poisson de paramètre λh et que,conditionnellement au fait que N(t) ≥ 1, D(t+h)−D(t) suit une loi de Poissonde paramètre µh.

    Par conséquent,

    P(N(t+ h) −N(t) = 1) = λh+ o(h)P(N(t+ h) −N(t) = −1) = µh+ o(h)

    P(N(t+ h) −N(t) > 1) = o(h)P(N(t+ h) −N(t) < −1) = o(h)

    P(N(t+ h) −N(t) = 0) = 1 − λh− µh+ o(h)

    Remarque :On parle de processus de Markov à taux continu et la matrice de transition estremplacée par une matrice de taux Q dont la somme des coefficients par colonnevaut 0.

    L’égalité tπn =t πnP , où P est la matrice de transition, est alors remplacée parl’équation X ′(t) = QX(t) dont la solution est X(t) = exp(Qt). Ici,

    Q =

    −λ λµ −λ− µ λ

    µ −λ− µ λ...

  • 4.3. EXEMPLE D’APPLICATION : LOI LIMITE DE LA TAILLE D’UNE FILE D’ATTENTE53

    On admet que la distribution limite π de N(t) existe. Les équations ci-dessusentraînent que

    π(k) = λhπ(k − 1) + µhπ(k + 1) + (1 − λh− µh)π(k) + o(h), ∀k ≥ 1π(0) = µhπ(1) + (1 − λh)π(0) + o(h)

    En simplifiant les équations ci-dessus, en les divisant par h puis en faisant tendreh vers 0, on obtient

    (λ+ µ)π(k) = λπ(k − 1) + µπ(k + 1), ∀k ≥ 1λπ(0) = µπ(1)

    En en déduit, par récurrence, et en posant ρ = λµ , que

    ∀k ≥ 0, limt→+∞

    P(N(t) = k) = π(k) = (1 − ρ)ρk

    La file suit donc, en régime stationnaire, une loi géométrique de paramètre λµ .

    Cela confirme l’observation de l’exemple en échelle logarithmique.

    4.3.3 λ = µ

    Ce cas est le plus complexe. Le plus simple pour le voir est de considérer lemoment T où la file se vide pour la première fois après l’arrivée du premierclient (temps de retour en 0).

    En effet, il est possible de montrer que T est presque surement fini.

    Cependant, E(T ) = λ−1E(τ) où τ est le temps de retour de 0 de la marchealéatoire symétrique sur Z. Or il est possible de montrer que P(τ = k) ∼k→+∞

    1√πk3/2

    . On en déduit que τ puis T n’ont pas de moment d’ordre 1.

    4.3.4 Temps moyen d’attente pour λ < µ

    Proposition 4.6 (Loi de Little). Soit N = E(π) la taille moyenne du nombrede personnes dans le système (file + personne servie) et T le temps moyend’attente. Alors

    T = λ−1N

  • 54 CHAPITRE 4. FILES D’ATTENTE ET PROCESSUS DE POISSON

    Démonstration. Soit R(t) =∫ t

    0 N(u)du−∑A(t)

    i=1 Ti.

    La contribution de tout individu i qui est reparti avant t dans le premier termeest Ti (Reprendre le dessin de Files1).

    Par conséquent, |R(t)| ≤∑

    ipresentent |Ti|.

    De plus, limt→+∞ 1t∫ t

    0 N(u)du = N (Monte-Carlo), limA(t)

    t = λ (Poisson) et∑A(t)i=1

    Ti

    A(t) = T (re-Monte Carlo).

    Dans notre cas, la taille moyenne de la file est de ρ1−ρ et que le temps moyend’attente est donc de ρλ(1−ρ) .

  • Chapitre 5

    TD1 - Séries génératrices etprocessus deGalton-Watson

    Exercise 5.1. Déterminer la fonction génératrice pour une variable X qui suitchacune des lois suivantes :

    1. une loi binomiale B(n, p) en partant de sa loi de probabilité.2. une loi binomiale B(n, p) en la considérant comme une somme de loi de

    Bernoulli.3. une loi de Poisson P(λ).4. une loi géométrique G(p).

    Exercise 5.2. Retrouver l’espérance et la variance de chacune des lois de l’exer-cice précédent à l’aide de sa fonction génératrice.

    Exercise 5.3. 1. Pour a > 0, λ > 0, on note γa,λ la densité e−λxλaxa−1

    Γ(a)définie sur R+.Vérifier que γa,λ est une densité (on rappelle que Γ(a) =

    ∫ +∞0 e

    −uua−1du).Calculer sa transformée de Laplace.

    2. Déterminer la transformée de Laplace de X2 où X suit une loi N (0, 1).Que vaut celle de X21 + . . .+X2n, où les Xi sont des variables aléatoiresindépendantes de loi N (0, 1).

    55

  • 56CHAPITRE 5. TD1 - SÉRIES GÉNÉRATRICES ET PROCESSUS DE GALTON-WATSON

    Exercise 5.4. Soit (Xn, n ≥ 1) une suite de v.a. i.i.d. centrées et de varianceσ2, dont la transformée de Laplace ϕ est définie sur R. Soit (Nk, k ≥ 1) unesuite de v.a. de Poisson de paramètre λk indépendante de la suite (Xn, n ≥ 1).On pose Zk =

    ∑Nkn=1 Xn.

    1. Montrer que la transformée de Laplace de Zk est

    ψk(t) = eλk(ϕ(t)−1)

    2. Montrer que si limk→+∞ λk = +∞, ψk(t/√λk) converge vers la transfor-

    mée de Laplace d’une loi N (0, σ2).

    Exercise 5.5. 1. On suppose que la distribution du nombre de fils d’unhomme suit une loi géométrique de paramètre p (il peut ne pas avoirde descendants). Un homme est le dernier portant son nom de famille.Quelle est la probabilité que ce dernier s’éteigne ?

    2. Même question avec une loi binomiale B(2, p).3. Même question avec une loi binomiale B(3, p).

    Exercise 5.6 (Examen 2019). On souhaite étudier une population de baleinesau cours des ans. Pour cela, on ne s’intéresse qu’aux individus femelles et onconsidère une génération par an, régulée par le processus suivant.

    — Si la baleine meurt dans l’année, son éventuel baleineau meurt également,et elle a 0 descendants l’année suivante

    — Si la baleine survit mais n’a pas de baleineau femelle, elle engendre undescendant dans la population de l’année suivante (elle-même)

    — Si la baleine survit et a un baleineau femelle, elle engendre deux descen-dants (elle-même et le baleineau).

    On suppose que toutes les baleines meurent d’une année sur l’autre avec la mêmeprobabilité p. On note µ la probabilité d’enfanter un baleineau femelle, et onsuppose que la mort et l’enfantement sont indépendants.

    1. Quelle relation doivent satisfaire p et µ pour que la population nes’éteigne pas forcément ?

    2. Dans ce cas, avec quelle probabilité s’éteindra-t-elle tout de même ?

    Exercise 5.7. Soit Sn une marche aléatoire sur les entiers qui à chaque pas detemps fait un pas vers la gauche ou vers la droite avec probabilité 12 , sauf en 0 oùelle fait forcément un pas à droite. La marche est absorbante en 0, c’est-à-direque si elle atteint 0, elle y reste.

  • 57

    On pose S0 = 0. Soit Zk le nombre de fois que la marche fait un saut de k versk + 1.

    1. Montrer que (Zk) suit un processus de Galton-Watson et déterminer ladistribution des descendants.

    2. Déterminer la fonction génératrice associée et en déduire la probabilitéd’extinction du processus. Qu’en déduisez-vous sur la marche ?

    Exercise 5.8. On considère un processus de Galton-Watson tel que m =ϕ′(1) = 1 et admettant un moment d’ordre 2, ce qui signifie que ϕ′′(1) existe.Soit τ = inf{n ≥ 0, Zn = 0} le temps d’extinction.

    1. Justifier que τ est presque surement fini.2. On pose un = P(τ > n). Ecrire un en fonction de Gn(0) et en déduire

    une relation de récurrence sur la suite (un)n.3. Que vaut limn→∞ un ? En déduire un développement limité à l’ordre de

    2 dans la relation de récurrence.4. Montrer que 1un+1 −

    1un

    ∼ ϕ′′(1)2

    5. En déduire que un ∼ 2ϕ′′(1)n .6. Montrer que Eτ = +∞

  • 58CHAPITRE 5. TD1 - SÉRIES GÉNÉRATRICES ET PROCESSUS DE GALTON-WATSON

  • Chapitre 6

    TD2 - Chaîne de Markov

    Exercise 6.1. Supposons que E = {1, 2}, que (Xn) soit une chaîne de Markovsur E telle que : + P(X1 = 1|X0 = 1) = p11 et P(X1 = 2|X0 = 1) = p12+ P(X1 = 1|X0 = 1) = p21 et P(X1 = 2|X0 = 1) = p22Soit µ0 = (a, b) la mesure initiale, c’est-à-dire que P(X0 = 1) = a et P(X0 =2) = b. On pose

    P = [pij ].

    1. Donner la loi de X1.2. On note µn = (an, bn) la loi de Xn. Donner une formule de récurrence

    pour an et bn.3. Montrer, par récurrence sur n, que

    (an, bn) = µ0Pn.

    Exercise 6.2. Soient p, q ∈ [0, 1] et P :=(

    p 1 − p1 − q q

    ).

    1. Donner les mesures invariantes.2. A quelle condition y en a-t-il une unique ?

    Exercise 6.3. Pour chacune des matrices suivantes,

    1. vérifier qu’il s’agit bien d’une matrice de transition d’une chaîne de Mar-kov

    2. représenter graphiquement la chaîne

    59

  • 60 CHAPITRE 6. TD2 - CHAÎNE DE MARKOV

    3. déterminer l’ensemble des états récurrents et des états transients4. déterminer l’ensemble des mesures invariantes.

    P1 =

    25 35 015

    12

    310

    0 2535

    P2 =

    12 0

    12 01

    2 012 01

    3 023 0

    0 0 0 1

    P3 =0 1 00 0 1

    1 0 0

    Exercise 6.4. On considère la propagation d’une information d’un individu 0à un individu n via n− 1 relais. On note α la probabilité que l’information soitfausse à l’individu k+1 sachant qu’elle était vraie en k et β la probabilité qu’ellesoit vraie en k + 1 alors qu’elle était fausse en k.

    1. Modéliser l’état de l’information à l’aide d’une chaîne de Markov.2. En déduire un moyen de calculer la probabilité que l’information soit

    encore vraie pour un nombre de pas tendant vers l’infini.

    Exercise 6.5. On considère un graphe non-orienté connexe (c’est-à-dire qu’ilexiste un chemin entre toute paire de sommets) ayant un circuit de longueur pet un circuit de longueur l, p et l premiers entre eux.

    On considère une marche aléatoire équiprobable sur ce graphe : quand le mar-cheur est sur un sommet de degré v, il prend chaque arête possible avec proba-bilité 1d(v) ).

    1. Justifier l’unicité de la mesure invariante µ pour cette chaîne de Markov.2. On dénote par N(i) l’ensemble des voisins du sommet i dans le graphe.

    Montrer que pour tout sommet i,

    µ(i) =∑

    j∈N(i)

    1d(j)

    µ(j)

    3. En déduire que si G est régulier (tous les sommets sont de même degré),µ est la mesure uniforme.

    Remarque : µ(i) étant liée à la fréquence avec laquelle une marche aléatoireinfinie passe par le sommet i, cette quantité peut être vue comme une popularitéliée au sommet i. L’égalité de la question 2 se traduit alors par le fait qu’un étatest d’autant plus populaire que ses voisins sont populaires. La détermination deµ est à la base de l’algorithme PageRank.

  • 61

    Exercise 6.6. Soit 0 < p < 1. On modélise un processus de vie et de mortfini par une chaîne de Markov à valeurs dans 0, . . . , N . Quand il n’y a pasd’individu, il s’en crée un avec probabilité p, quand il y en a N , l’un d’euxmeurt avec probabilité 1 − p. Quand il y en a k, 0 ≤ k ≤ N , il y a une naissanceavec probabilité p et une mort avec probabilité 1 − p.

    1. Dessiner le diagramme de la chaîne.2. Déterminer sa matrice de transition.3. Déterminer la mesure invariante et le comportement asymptotique de la

    chaîne ?4. Quel est le comportement de la chaîne pour p très petit, très proche de

    1 et p = 12 .

    Exercise 6.7. Les consommateurs de 3 produits sont répartis en 50% pour P1,30% pour P2 et 20% pour P3. Après chaque mois, 60% restent fidèles à P1 contre70% pour P2 et 90% pour P3. Les autres se réorientent entre les deux produitsde manière équiprobable. On note Xn la répartition des consommateurs au moisn.

    1. Montrer que (Xn) est une chaine de Markov. Déterminer sa distributioninitiale et la matrice de transition P . Dessiner le diagramme de la chaîne.

    2. Donner la loi de Xn pour n >> 1. En moyenne, à quel produit va lapréférence du consommateur ?

    3. Soit T1 le nombre de mois moyen avant le premier passage par P1. Déter-miner des relations entre E(T1|X0 = 1), E(T1|X0 = 2) et E(T1|X0 = 3).Résoudre le système.

    4. On suppose que la chaîne a atteint son régime stationnaire. Donner lenombre de mois moyen pour qu’un consommateur qui change d’avis re-vienne à son choix initial.

    Exercise 6.8. L’ADN est composée des quatre acides aminés A, C, G et T .On considère une position particulière d’un gène, où on estime que la matricede transition d’une génération à l’autre est la suivante, un changement d’acideaminé correspondant à une mutation.

    P =

    1 − 2ϵ ϵ ϵ 0ϵ 1 − ϵ 0 0ϵ 0 1 − ϵ 02ϵ 0 0 1 − 2ϵ

  • 62 CHAPITRE 6. TD2 - CHAÎNE DE MARKOV

    On considère un individu dont la séquence porte un A. On se place dans unmodèle simplifié où on ne prend pas en compte le fait que les gènes sont portés endeux exemplaires et qu’un individu a deux parents. On considèrera donc qu’unenfant a exactement un gène transmis (avec éventuellement une mutation) parson unique parent.

    1. Quelles sont les lettres que porteront potentiellement les descendants del’individu initial ?

    2. Quelle est la distribution à très long terme des acides aminés chez sesdescendants ?

    3. On note πn la distribution a bout de n générations. Rappeler commentπtn peut s’écrire en fonction de πt0 et de P .

    4. On considère que ϵ ≈ 10−6. En utilisant un développement limité, déter-miner la distribution des acides aminés après 1000 générations.

    Exercise 6.9 (Modèle de Wright-Fisher). On cherche à modéliser la transmis-sion d’un gène dans une population finie de taille finie, supposée constante. Cegène possède deux allèles A et a.

    La population est composée de N individus, N étant grand et constant d’unegénération à l’autre (on peut par exemple penser à des semences mises de côtéd’une année sur l’autre). CesN individus sont tirés au sort parmi les descendantsde la génération précédente.

    Soit Xk le nombre d’allèles a à la génération k. Si on considère que toute paired’individus de la génération N peut être choisie comme parents, on peut suppo-ser que chaque allèle de la population k + 1 est tiré avec probabilité égale à saproportion dans la génération k.

    1. Quelle est la loi de Xk+1 en fonction de Xk ?2. En déduire que le nombre d’allèles a suit une chaîne de Markov dont les

    états sont les entiers entre 0 et 2N et donner les probabilités de transitioncorrespondantes.

    3. Dessiner le graphe de cette chaîne. Quels sont les comportements asymp-totiques possibles pour une telle chaîne ?

    La question pertinente d’un point de vue asymptotique est dans ce cas de savoir,étant donné le nombre x0 d’allèles a dans la génération initiale, quelle est laprobabilité que ce soit l’allèle a qui disparaisse, et combien de temps s’écouleavant que l’un des allèles soit fixé.

    Soit pExt la probabilité d’extinction de a.

    4. Montrer par récurrence que E(Xk) = x0 pour tout k. En déduire pExt.

  • 63

    Considérons maintenant le temps T de fixation d’un allèle (c’est-à-dire d’obtenirXk = 0 ou Xk = N).

    On note τ =

    E(T |X0 = 1). . .E(T |X0 = 2N − 1)

    et 1 = 1. . .

    1

    .5. Que valent E(T |X0 = 0) et E(T |X0 = N) ? Justifier que pour 1 ≤ k ≤N − 1,

    E(T |X0 = k) = 1 +N−1∑j=1

    E(T |X0 = j)P(X1 = j|X0 = k)

    6. En déduire une formule vérifiée par le vecteur τ et proposer une façon dedéterminer τ en pratique

    On considère maintenant la possibilité qu’il existe une probabilité ϵ non nullepour chaque individu de subir une mutation qui transforme l’allèle A en a ouinversement.

    7. Quelles sont les nouvelles probabilités de transition de la chaîne de Mar-kov (on supposera ϵ suffisamment petit pour négliger les termes en ϵk,k ≥ 2) ?

    8. Quel est son comportement asymptotique ?

  • 64 CHAPITRE 6. TD2 - CHAÎNE DE MARKOV

  • Chapitre 7

    TD3 - Files d’attente

    Exercise 7.1. On admet qu’un processus (Nt)t≥0 est un processus de Poissond’intensité λ si et seulement si ses taux d’accroisements Nt+s −Nt sont station-naires (c’est-à-dire indépendant de t), indépendants entre eux et suivent une loide Poisson de paramètre λs.

    Soit (Nt)t≥0 et (Mt)t≥0 des procesus de Poisson indépendants d’intensité λ etµ. Montrer que (Nt +Mt)t≥0 est un processus d’intensité λ+ µ.

    Exercise 7.2. La constante ρ = λµ est appelée trafic offert lorsqu’on parle defiles d’attentes des tâches allouées à un processeur.

    Dans le cas M/M/1 (les départs et les arrivées se font suivant des processus dePoisson), justifier qu’il s’agit du nombre moyen d’arrivées qui ont lieu durant letraitement d’une tâche.

    Exercise 7.3. On suppose que les clients entrent dans une boulangerie suivantun processus de Poisson, un client arrivant en moyenne toutes les minutes etdemi.

    On suppose que le temps de service suit une loi exponentielle de moyenne uneminute et qu’il n’y a qu’une personne affectée au service dans la boulangerie.

    1. Quelle est la distribution stationnaire de la taille de la file ?2. Quelle est la proportion de personnes qui pourront être servies immédia-

    tement ?3. Quelle est la proportion de celles qui devront attendre plus de deux mi-

    nutes ?4. Quelle est le temps d’attente moyen passé dans la boulangerie ?

    65

  • 66 CHAPITRE 7. TD3 - FILES D’ATTENTE

    5. Que se passe-t-il si un client arrive en moyenne toutes les minutes ?

    Exercise 7.4. Reprendre l’exercice précédent quand les clients rebroussent che-min si la file contient cinq personnes.

    Exercise 7.5. Reprendre toujours le même exercice si la boulangerie a deuxpersonnes affectées au service.

    Exercise 7.6. On considère une file d’attente où les arrivées se font suivant unprocessus de Poisson d’intensité λ et le temps de traitement suit une loi exponen-tielle de paramètre µ. On suppose qu’il y a S guichets, qu’ils sont indépendantsles uns des autres et que jamais un guichet n’est laissé vide si un client est enattente.

    1. Quelle est la probabilité que le prochain évènement soit une arrivée ?Justifier qu’elle ne dépend pas du temps.

    2. Quel est le comportement à long terme de la file en fonction des valeursde λ et µ ?

    Exercise 7.7. On considère une file d’attente où les arrivées se font suivant unprocessus de Poisson d’intensité λ et le temps de traitement est constant égal à1.

    1. Le client qui est servi actuellement a été pris en charge depuis un tempst, t < 1. Quelle est la probabilité qu’il y a ait au moins une arrivée avantqu’il libère le guichet ?

    2. On note Xn la taille de la file à l’instant n, n ∈ N. Justifier que (Xn)est une chaîne de Markov à valeurs sur N. Déterminer ses probabilités detransition.

    Exercise 7.8. On considère une file d’attente avec arrivées et départ suivantune loi exponentielle de paramètre λ (le cas λ = µ du cours).

    On suppose que la file d’attente est initialement vide et on note T le tempsau bout duquel elle se vide à nouveau pour la première fois après l’arrivée dupremier client.

    On note (Sk)k∈N la marche aléatoire symétrique sur Z partant de 0, c’est-à-dire :

  • 67

    — S0 = 0— P(Sk+1 = Sk + 1) = P(Sk+1 = Sk − 1) = 12

    On note τ le temps du premier retour en 0 :

    τ = inf{k ≥ 1|Sk = 0}

    1. Montrer que E(T ) = 1λE(τ)2. Déterminer, pour tout k,

    pk = P(Sk = 0)

    En utilisant la formule de Stirling, démontrer que p2k ∼k→∞ 1√πk .3. Justifier que

    P(τ = 2k) = P(S1 > 0, S2 > 0, . . . , S2k−1 > 0, S2k = 0)

    puis que

    P(τ = 2k) = P(S1 = 1, S2k−1 = 1)−P(S1 = 1, S2k−1 = 1,∃l, 1 ≤ l ≤ 2k−1 tel que Sl = 0

    Soit A l’ensemble des chemins entre S1 = 1, et S2k−1 = 1 qui passent au moinsune fois par 0 entre les deux. Soit B l’ensemble des chemins de S1 = −1 àS2k−1 = 1.

    A tout chemin de A, on peut associer un chemin de B en prenant l’opposé duchemin sur la partie précédant sa première annulation.

    4. Dessiner un exemple de chemin de A et le chemin de B associé. Justifierqu’il s’agit d’une bijection.

    5. En déduire que

    P(τ = 2k) = P(S2k−2 = 0) − P(S2k−2 = 2)

    puis que

    P(τ = 2k) = 1k

    P(S2k−2 = 0)

    6. En déduire que τ et T n’ont pas de moment d’ordre 1.

  • 68 CHAPITRE 7. TD3 - FILES D’ATTENTE

  • Chapitre 8

    TD1 - Corrigés

    Exercise 8.1. Déterminer la fonction génératrice pour une variable X qui suitchacune des lois suivantes :

    1. une loi binomiale B(n, p) en partant de sa loi de probabilité.2. une loi binomiale B(n, p) en la considérant comme une somme de loi de

    Bernoulli.3. une loi de Poisson P(λ).4. une loi géométrique G(p).

    Corrigé : cf exemples du cours.

    Exercise 8.2. Retrouver l’espérance et la variance de chacune des lois de l’exer-cice précédent à l’aide de sa fonction génératrice.

    Corrigé : cf exemples du cours.

    Exercise 8.3. 1. Pour a > 0, λ > 0, on note γa,λ la densité e−λxλaxa−1

    Γ(a)définie sur R+.Vérifier que γa,λ est une densité (on rappelle que Γ(a) =

    ∫ +∞0 e

    −uua−1du).Calculer sa transformée de Laplace.

    69

  • 70 CHAPITRE 8. TD1 - CORRIGÉS

    2. Déterminer la transformée de Laplace de X2 où X suit une loi N (0, 1).Que vaut celle de X21 + . . .+X2n, où les Xi sont des variables aléatoiresindépendantes de loi N (0, 1).

    Corrigé :

    1. Pour la densité, faire la changement de variable u = λx dans l’intégrale∫ +∞0 γa,λ(x)dx.

    Pour la transformée,

    ϕX(t) =λa

    Γ(a)

    ∫ +∞0

    e−(t+λ)xa−1dx

    = λa

    Γ(a)Γ(a)

    (λ+ t)a

    ∫ +∞0

    γa,λ+t(x)dx

    = λa

    (λ+ t)a

    2. Il faut commencer par déterminer la distribution de X2. Pour cela, oncommence par écrire sa fonction de répartition en fonction de celle de X.

    FX2(t) = P(X2 ≤ t)= 1 − P(X2 ≥ t)= 1 − 2P(X ≥

    √t)

    = 2FX(t) − 1

    La distribution de X2 est donc

    F ′X2(t) = 21

    2√tF ′X(t) =

    1√2πt

    e−t2

    La transformée de Laplace est

    ϕX(t) =1√2π

    ∫ +∞0

    1√xe−(t+

    12 )xdx

    On fait le changement de variable u = (2t + 1)x et on utilise∫ +∞0

    1√2πue

    − u2 du = 1 (car c’est l’intégrale de la distribution de X2). Onobtient ϕX2(t) = 1√2t+1ϕX21 +...+X2n(t) =

    ( 1√2t+1

    )n

  • 71

    Exercise 8.4. Soit (Xn, n ≥ 1) une suite de v.a. i.i.d. centrées et de varianceσ2, dont la transformée de Laplace ϕ est définie sur R. Soit (Nk, k ≥ 1) unesuite de v.a. de Poisson de paramètre λk indépendante de la suite (Xn, n ≥ 1).On pose Zk =

    ∑Nkn=1 Xn.

    1. Montrer que la transformée de Laplace de Zk est

    ψk(t) = eλk(ϕ(t)−1)

    2. Montrer que si limk→+∞ λk = +∞, ψk(t/√λk) converge vers la transfor-

    mée de Laplace d’une loi N (0, σ2).

    Corrigé :

    1. Les distributions vérifient

    fZk (x) =+∞∑p=1

    fX1+...+Xp(x)λpkp!e−λk

    Alors∫ +∞0

    e−txfZk (x)dx =+∞∑p=0

    ( ∫ +∞0

    e−txfX1+...+Xp(x)dx)λpkp!e−λk

    =+∞∑p=0

    ϕ(t)pλpkp!e−λk

    = eλk(ϕ(t)−1)

    L’inversion de la somme infinie et de l’intégrale généralisée est justifiéepar la positivité de tous les termes considérés.

    2. Le développement limité de ϕ( t√k

    )−1 donne que ψ( t√k

    ) tend vers et2σ2/2

    (car ϕ(0) = 1, ϕ′(0) = −EX = 0, ϕ′′(0) = σ2).La transformée de Laplace de N (0, σ2) vaut

    1√2πσ2

    ∫ +∞0

    e−txe−x2

    2σ2 dx = 1√2πσ2

    ∫ +∞0

    e−x2+2tσ2

    2σ2 dx

    = 1√2πσ2

    ∫ +∞0

    e−(x+tσ2)2−t2σ4

    2σ2 dx

    = 1√2πσ2

    et2σ2/2

    ∫ +∞0

    e−(x+tσ2)2

    2σ2 dx

    = 1√2πσ2

    et2σ2/2

    ∫ +∞0

    e−u2

    2σ2 dx

    = et2σ2/2

  • 72 CHAPITRE 8. TD1 - CORRIGÉS

    Exercise 8.5. 1. On suppose que la distribution du nombre de fils d’unhomme suit une loi géométrique de paramètre p (il peut ne pas avoirde descendants). Un homme est le dernier portant son nom de famille.Quelle est la probabilité que ce dernier s’éteigne ?

    2. Même question avec une loi binomiale B(2, p).3. Même question avec une loi binomiale B(3, p).

    Corrigé :

    1. On démontre d’abord que la fonction génératrice de la loi géométriqueest ϕ(s) = p1−qs (cf cours mais en commençant la somme en 0).Puis on résout ϕ(s) = s. Les deux solutions sont s = 1 et s = pq . Si p ≥

    12 ,

    le nom de famille s’éteint avec probabilité 1. Si p ≤ 12 , elle s’éteint avecprobabilité pq .Cela est cohérent avec le fait que ici, m = ϕ′(1) = qp et est donc supérieurà 1 si et seulement si p ≤ 12 .

    2. ϕ(s) = (1 − p)2 + 2p(1 − p)s+ p2s2.La recherche de la plus petite racine donne

    ( 1−pp

    )2 pour p ≥ 12 et 1 sinon.3. ϕ(s) = (1 − p)3 + 3p(1 − p)2s+ p2(1 − p)s2 + p3s3.

    La recherche de la plus petite racine est possible car on sait que s = 1est racine du polynôme qu’on obtient. On peut donc le mettre en facteuret finir la recherche. On obtient 2p−32p +

    12

    √2p−3

    2p2 + 4 1−pp

    3 pour p ≥ 13 et1 sinon.

    Exercise 8.6. On souhaite étudier une population de baleines au cours desans. Pour cela, on ne s’intéresse qu’aux individus femelles et on considère unegénération par an, régulée par le processus suivant.

    — Si la baleine meurt dans l’année, son éventuel baleineau meurt également,et elle a 0 descendants l’année suivante

    — Si la baleine survit mais n’a pas de baleineau femelle, elle engendre undescendant dans la population de l’année suivante (elle-même)

    — Si la baleine survit et a un baleineau femelle, elle engendre deux descen-dants (elle-même et le baleineau).

    On suppose que toutes les baleines meurent d’une année sur l’autre avec la mêmeprobabilité p. On note µ la probabilité d’enfanter un baleineau femelle, et onsuppose que la mort et l’enfantement sont indépendants.

    1. Quelle relation doivent satisfaire p et µ pour que la population nes’éteigne pas forcément ?

  • 73

    2. Dans ce cas, avec quelle probabilité s’éteindra-t-elle tout de même ?

    Corrigé :

    1. La loi du nombre de descendants X de la baleine l’année suivante estdonnée par

    P(X = 0) = pP(X = 1) = (1 − p)(1 − µ)P(X = 2) = (1 − p)µ

    Son espérance est donc

    E(X) = (1 − p)(1 − µ) + 2(1 − p)µ = (1 − p)(1 + µ)

    La population a une probabilité non nulle de s’éteindre si et seulementsi E(X > 1), c’est-à-dire si et seulement si

    µ >p

    1 − p

    2. La probabilité de s’éteindre est la plus petite solution dans [0, 1] de ϕ(s) =s, où ϕ est la fonction génératrice de X.

    ϕ(s) = s ⇔ p+ (1 − p)(1 − µ)s+ (1 − p)µs2 = s⇔ (1 − p)µs2 + (pµ− p− µ)s+ p = 0⇔ (s− 1)

    ((1 − p)µs− p

    )= 0

    ⇔ s = 1 ou s = p(1 − p)µ

    Cette probabilité vaut p(1−p)µ lorsque la condition de la question précé-dente est vérifiée.

    Exercise 8.7. Soit Sn une marche aléatoire sur les entiers qui à chaque pas detemps fait un pas vers la gauche ou vers la droite avec probabilité 12 , sauf en 0 oùelle fait forcément un pas à droite. La marche est absorbante en 0, c’est-à-direque si elle atteint 0, elle y reste.

    On pose S0 = 0. Soit Zk le nombre de fois que la marche fait un saut de k versk + 1.

    1. Montrer que (Zk) suit un processus de Galton-Watson et déterminer ladistribution des descendants.

  • 74 CHAPITRE 8. TD1 - CORRIGÉS

    2. Déterminer la fonction génératrice associée et en déduire la probabilitéd’extinction du processus. Qu’en déduisez-vous sur la marche ?

    Corrigé :

    1. On note Xk,j le nombre de fois que la marche passe de k+1 à k+2 e