Download - Idris KHARROUBI Sorbonne Université · 2019. 10. 14. · Chapitre 1 Généralité sur les estimateurs Monte Carlo 1.1 Loi des grands nombres et estimation d’intégrales On ﬁxe

Méthodes de Monte Carlo

Idris KHARROUBI

Sorbonne Université

Table des matières

1 Généralité sur les estimateurs Monte Carlo 41.1 Loi des grands nombres et estimation d’intégrales . . . . . . . . . 4

1.2 Vitesse de convergence et intervalles de confiance . . . . . . . . . 5

1.3 Exemples et exercices . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Simulation de variables aléatoires 152.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Méthode d’inversion . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3 Méthode du rejet . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4 Méthode par transformation . . . . . . . . . . . . . . . . . . . . 18

2.5 Variables corrélées et conditionnement . . . . . . . . . . . . . . . 20

2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Méthodes de réduction de variance 273.1 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Variables antithétiques . . . . . . . . . . . . . . . . . . . . . . . 28

3.3 Stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4 Fonction d’importance . . . . . . . . . . . . . . . . . . . . . . . 35

3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Méthodes de quasi-Monte Carlo 464.1 Discrépance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.2 Cas des suites i.i.d de loi U[0,1] . . . . . . . . . . . . . . . . . . . 48

4.3 Exemples de suites à discrépance faible . . . . . . . . . . . . . . 48

2

5 Sensibilités 505.1 Méthode des différences finies . . . . . . . . . . . . . . . . . . . 50

5.2 Méthode par différentiation . . . . . . . . . . . . . . . . . . . . . 53

5.3 Méthode de log-vraisemblance . . . . . . . . . . . . . . . . . . . 54

3

Chapitre 1

Généralité sur les estimateursMonte Carlo

1.1 Loi des grands nombres et estimation d’intégrales

On fixe dans la suite un espace de probabilités (Ω,A,P). On considère sur cet

espace une suite (Xn)n≥1 de variables aléatoires indépendantes et identiquement

distribuées. On note alors SN la somme empirique jusqu’a l’indice N :

SN =1

N

N∑n=1

Xn ,

pour N ≥ 1.

Théorème 1 (Loi forte des grands nombres). Supposons que les Xn soient inté-

grables. Alors

SNP−p.s.−−−−→N→+∞

E[X1] .

La méthode de Monte Carlo est une application directe de ce résultat permet-

tant le calcul ‘pratique’ d’intégrales. Plus précisément, considérons une fonction

f : [0, 1]→ R measurable et notons I =∫ 10 f(u)du. On considère alors une suite

de variables aléatoires i.i.d. (Un)n≥1 de loi uniforme sur [0, 1]. D’après la loi forte

des grands nombres, nous obtenons la convergence suivante :

limN→+∞

1

N

N∑n=1

f(Un) = E[f(U1)] =∫ 1

0f(u)du .

4

Cette convergence nous permet alors de faire l’approximation suivante :∫ 1

0f(u)du ≈ 1

N

N∑n=1

f(Un)

De manière plus générale, si f est définie et mesurable sur Rd et g est une fonction

de densité de probabilité sur Rd alors la loi forte de grands nombres nous donne

limN→+∞

1

N

N∑n=1

f(Gn) = E[f(G1)] =∫Rdf(u)g(u)du .

où (Gn)n≥1 est une suite i.i.d. de densité g. Nous retrouvons alors encore l’ap-

proximation suivante :∫Rdf(u)g(u)du ≈ 1

N

N∑n=1

f(Gn) .

Remarque 1. Dans l’approximation précédente, le choix du paramètre N doit

être le plus grand possible pour réduire l’erreur d’approximation. Par contre il

faut prendreN le plus petit possible pour réduire le temps de calcul. Ainsi se pose

le choix de N qui est lié à la qualité de l’approximation précédente relative à

ce paramètre. On parle alors de vitesse de convergence. Cette vitesse est étudiée

dans la section suivante.

1.2 Vitesse de convergence et intervalles de confiance

Nous commençons par le principal résultat donnant la vitesse de convergence.

Théorème 2 (Théorème central limite). Supposons que les variables aléatoires

Xn soient à valeurs réelles et de carré intégrable. Notons m = E[X1] et σ2 =

V(X1). Alors

√NÅSN −m

ãL−−−−→

N→+∞N (0, σ2) .

La version multidimensionnelle est la suivante : si les Xn sont à valeurs dans

Rd alors√NÅSN −M

ãL−−−−→

N→+∞N (0,Σ2) .

5

où M = [m`]1≤`≤d et Σ2 = [σ2`,m]1≤`,m≤d désignent respectivement le vecteur

moyenne et la matrice de variance-covariance des Xn.

Le théorème central limite nous donne deux informations : la vitesse de conver-

gence qui est en√N et la variance de la loi asymptotique de l’erreur.

— La vitesse en√N est très lente (il faut multiplier par 4 le nombre d’itéra-

tions pour divisier l’erreur par 2). Il s’agit cependant de l’un des principaux

avantages de la méthode de Monte Carlo puisque cette vitesse ne dépend

pas de la dimension (contrairement aux méthodes déterministes).

— La variance est très importante en pratique car plus elle est grande, moins

l’approximation risque d’être efficace. Nous allons voir son rôle primor-

dial dans le ‘critère d’arrêt’ de la procédure basée sur les intervalles de

confiance.

Nous présentons maintenant la notion d’intervalle de confiance. Nous consi-

dérons dans la suite des variables aléatoires unidimensionnelles.

Intervalles de confiance asymptotiques. Nous commençons par les intervalles

de confiance limites.

Nous supposons dans cette section que la loi des variables aléatoiresXn, n ≥ 1

dépend d’un paramètre réel θ que l’on cherche à estimer.

Définition 1 (Intervalles de confiance asymptotique). Fixons un réel α ∈]0, 1[. Un

intervalle de confiance pour θ de niveau (probabilité de confiance) 1 − α est un

intervalle IN(X1, . . . , XN) dont les bornes sont des fonctions de X1, . . . , XN et

tel que

limN→+∞

P(θ ∈ IN(X1, . . . , XN)) ≥ 1− α .

Cas d’une variance σ2 connue. Dans le cas d’une variance σ2 connue, on déduit

du TCL un intervalle de confiance pour la moyenne m des Xn. En effet, la loi

limite n’ayant pas d’atome, nous avons

limN→+∞

PÅ√N(Sn −m)

σ∈ [−a, a]

ã= P

ÅG ∈ [−a, a]

ã6

où G ∼ N (0, 1). Or√N(Sn −m)

σ∈ [−a, a] ⇔ m ∈ [SN ±

aσ√N

] .

Nous en déduisons un intervalle de confiance asymptotique pourm de niveau 1−αde la forme

IN =ï 1

N

N∑n=1

Xn ±q

1−α2

N (0,1)σ√N

òoù q

1−α2

N (0,1) désigne le quantile de la loiN (0, 1) d’ordre 1− α2

. Dans les application,

il est d’usage de prendre α = 5% et dans ce cas q1−α

2

N (0,1) ≈ 1, 96.

Cas où la variance est inconnue. Dans ce cas il faut estimer aussi la variance par

méthode de Monte Carlo. Notons alors

σ2N =

1

N − 1

N∑n=1

(Xn − SN)2

Par la LFGN nous avons

σ2N

P−p.s.−−−−→N→+∞

σ2 .

Il nous faut alors le résultat additionnel suivant.

Lemme 1 (Slutsky). Soient Y , et Yn et Zn, n ≥ 1 des variables aléatoires telles

que

YNL−−−−→

N→+∞Y ,

ZNP−−−−→

N→+∞c .

où c est une constante réelle. Alors

ZNYNL−−−−→

N→+∞cY ,

ZN + YNL−−−−→

N→+∞c+ Y .

A l’aide de ce lemme, on peut appliquer le raisonnement précédent en rempla-

çant σ2 par σ2 et nous obtenons l’intervalle de confiance de niveau 1− α suivant

IN =ï 1

N

N∑n=1

Xn ±q1−αN (0,1)σN√

N

ò.

7

Intervalles de confiance à distance finie. Les intervalles asymptotiques issus

du TCL sont largement utilisé dans la méthodologie Monte Carlo et cela se jus-

tifie par l’utilisation d’un grand nombre d’itération (N ≥ 105). Il est cependant

également possible de construire des intervalles de confiance dont la probabilité

d’appartenance est contrôlée pour un nombre fixé d’itérations. Cela peut être fait

en utilisant par exemple les inégalités de Bienaymé-Tchebychev et de Chernov

par exemple.

Proposition 1 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléa-

toire réelle de carré intégrable. Alors

PÅ|X − E[X]| ≥ r

ã≤ V(X)

r2.

pour tout r > 0.

Ainsi nous avons

PÅ|SN −m| ≥ r

ã≤ V(SN)

r2=

σ2

Nr2

et

PÅm ∈ [SN − r, SN + r]

ã≥ 1− σ2

Nr2

pour tout r > 0. Ainsi pour avoir un intervalle de confiance de niveau 1 − α, il

nous faut prendre r = σ√N√α

. L’intervalle est alors beaucoup plus grand que celui

donné par le TCL.

Dans le cas d’une intégrabilité plus forte, ce résultat peut être nettement amé-

lioré à l’aide de l’inégalité de Chernov.

Proposition 2 (Inégalité de Chernov). Soit X une variable aléatoire de moyenne

0 et de loi µ. Supposons que X admet un moment exponentiel : il existe ρ > 0 tel

que E[eρ|X|] <∞. Alors

P(X > a) ≤ e−hX(a) ,

P(X < −a) ≤ e−hX(−a) ,

8

pour tout a ≥ 0, où hX est la transfomée de Cramer de la X définie par

hX(x) = supy≥0

yx− logE[eyX ] si x ≥ 0 ,

hX(x) = supy≤0−yx− logE[eyX ] si x ≤ 0 .

Démonstration. Nous commençons par démontrer la première inégalité. Nous

avons

EîeyX1X≥a

ó≤ E

îeyXó

pour tout y ≥ 0. En appliquant l’inégalité de Tchebychev nous obtenons

eyaP(X ≥ a) ≤ EîeyXó

ce qui nous donne

P(X ≥ a) ≤ e−Äay−logE[eyX ]

ä.

Cette inégalité étant vraie pour tout y ≥ 0, nous obtenons la première inégalité.

Pour la seconde inégalité, nous avons

ey(X+a) ≥ 1X<−a

pour tout y ≤ 0. En prenant l’espérance, nous obtenons

P(X < −a) ≤ Eîey(X+a)

ó= eyaelogEeyX = e−(−ya−logEeyX) .

y étant arbitraire, nous obtenons la seconde inégalité. 2

Notons m la moyenne des Xn : m = E[X1]. Supposons que les Xn − m

admettent un moment exponentiel. Il en est alors de même pour SN −m. En effet,

par indépendance et identique distributivité, nous avons

Eîeρ|SN−m|

ó= E

îeρN|XN−m|

óN ≤ Eîeρ|XN−m|

óN< +∞ .

Par ailleurs, la transformée de Cramer de SN −m est donnée par

hSN−m(a) = supy≥0

ya− logE[ea(SN−m)]

= supy≥0

ya−N logE[eyN

(X1−m)]

= NhX1−m(a)

9

pour a ≥ 0. Le même calcul nous donne hSN−m(a) = NhX1−m(a) pour a ≤ 0.

En appliquant l’inégalité de Chernov à SN −m nous obtenons donc la majoration

suivante :

P(m ∈ [SN − a, SN + a]) ≥ 1− e−NhX1−m(a) − e−NhX1−m(−a)

pour a ≥ 0. Dans le cas gaussien avec variance σ2 = 1, i.e. X1 −m ∼ N (0, 1),

nous obtenons hX1−m(x) = x2

2ce qui nous donne

P(m ∈ [SN − a, SN + a]) ≥ 1− 2e−Na2

2 .

Pour obtenir un intervalle de niveau 1− α il faut alors prendre a =√−2 log(α/2)

N.

Nous notons que cet intervalle de confiance est plus précis que celui obtenu à

l’aide de l’ingalité de Bienaymé-Chebytchev car»−2 log(α/2) = o

Å 1√α

ãquand α→ 0.

1.3 Exemples et exercices

Aiguille de Buffon. L’aiguille de Buffon est une expérience de probabilité pro-

posée en 1731 par Georges-Louis Leclerc de Buffon, un scientifique français du

XVIIIe siècle. Le but de cette expérience est de calculer la probabilité p qu’une

aiguille jetée au sol touche une rainure de parquet. sur Il s’agit de lancer un grand

nombre de fois une aiguille sur un parquet. Le parquet est composé de planches

parallèles de même largeur. On comptabilise le nombre de fois où l’aiguille tombe

à cheval sur une rainure du parquet (cas "favorable") par rapport au nombre total

de lancers. Au fur et à mesure que le nombre de lancers augmente, le quotient

se rapproche d’un certain nombre permettant de retrouver p en supposant que la

longueur de l’aiguille est inférieure ou égale à la largeur d’une planche du parquet.

Pour cela, notons

— l le réel positif correspondant à la largeur d’une latte de parquet ;

— a le réel positif correspondant à la longueur de l’aiguille ;

10

— θ le réel compris entre 0 et π/2 correspondant à l’angle géométrique formé

avec les rainures du parquet ;

— r le réel positif correspondant à la distance du centre de l’aiguille à la

rainure la plus proche.

En utilisant toutes les symétries du problème, on peut considérer que :

— θ suit une loi uniforme sur [0; π/2] ;

— r suit une loi uniforme sur [0; l/2].

Considérons n lancers de cette aiguille. On peut considérer alors que toutes les

positions différentes de l’aiguille mises bout à bout forment un polygone à n côtés.

Plus n est grand plus ce polygone se rapprochera d’un cercle. Le périmètre P de ce

cercle vaut alors P = n×a. Le diamètre de ce cercle vaudraD = P/π = n×a/π.

Le problème revient à savoir : combien de rainures parallèles sont coupées par le

polygone, ou encore combien y a-t-il de rainures à l’intérieur du cercle?

Le nombre d’intersections du cercle avec les rainures R est donné par R =

2D/l. Finalement la probabilité que l’aiguille coupe une rainure est donnée par

p = Rn

= 2× Dl

1n

= 2× naπ×l×n et en simplifiant p = 2a

π×l

Un exemple où ça se passe mal. On cherche à estimer E[eθG] où θ est une

constante positive et G ∼ N (0, 1).

1. Calculer E[eθG] pour tout θ ∈ R. En utilisant cette expression donner une

valeur approchée de E[eθG] pour θ = 5.

Dans le cas θ = 5 on a E[eθG] ≈ 2, 68×104 en utilisant la formule E[eθG] =

eθ2

2 .

2. Proposer un estimateur de Monte Carlo de la quantité E[eθG]. Implémenter

cet estimateur pour θ = 5 et N = 100 000. Faire cinq essais de simulation

de cet estimateur. Que se passe-t-il ? Calculer la variance de cet estimateur.

Que pout-on en déduire?

On procède à l’estimation par Monte-Carlo de cette quantité. Pour cela on

génère N = 100 000 simulation G1, . . . , G100 000 de la loi N (0, 1) et on

11

calcul 1N

∑100 000n=1 eθGn . On obtient alors les résultats suivants :

1er résultat : 1, 10× 104

2nd résultat : 1, 04× 104

3ième résultat : 2, 35× 104



On constate que les estimations donnent des résultats complètement diffé-

rents. Le problème ici est que la variance σ2 = E[e2θG]−E[eθG]2 est grande

relativement au nombre de simulation N . En fait cette variance peut être

calculé explicitement : σ2 = e2θ2 − eθ2 = eθ2(eθ

2 − 1) ≈ 5, 15× 1021.

3. Déterminer la taille de l’intervalle de confiance à 95% lorsqueN = 100 000.

D’après la section précédente, l’intervalle de confiance asymptotique à 95%

est donné par

I =ïE[eθG]−

q1−αN (0,1)σ√N

, E[eθG] +q1−αN (0,1)σ√N

ò.

La taille de l’intervalle est donc 2q95%N (0,1)

σ√N≈ 8, 92×108 (en utilisant q95%

N (0,1) ≈1, 96). On constate donc que la taille de l’intervalle est trop grande.

4. Quelle valeur de N doit-on prendre pour que l’erreur relative soit de 1 à

95%?

Toujours en utilisant la forme de l’intervalle de confiance, N doit vérifier

2q95%N (0,1)σ√N

≤ 1

soit

N ≥ 4σ2(q95%N (0,1))

2 ≈ 7, 97× 1022 .

12

Intégration numérique. On cherche à évaluer l’intégrale I :=∫ ∫

[0,1]2 xy sinÅ

1xy

ãdxdy.

1. Proposer une estimation Monte-Carlo de I utilisant la loi uniforme sur

[0, 1]2

Il suffit de prendre (Xn, Yn)n≥1 i.i.d. de loi uniforme sur [0, 1] et d’approcher

I par IN définie par

IN =1

N

N∑n=1

XnYn sinÅ 1

XnYn

ã2. On pose f(x, y) = xy sin

Å1xy

ã. Soient (X, Y, Z) uniformément réparties

sur [0, 1]3. On définit la variable aléatoire U = 1Z<f(X,Y ). Monter que

I = P(U = 1) .

En déduire une méthode d’estimation de type Monte Carlo de I . D’après la

définition de U on a

P(U = 1) = P(Z < f(X, Y ))

= E[P(Z < f(X, Y )|X, Y )]

= E[f(X, Y )] ,

où la dernière égalité vient de l’indépendance de X , Y et Z.

3. Comparer les deux méthodes précédentes.

Première méthode :

10 000 simulations, résultat : 3, 83× 10−1

50 000 simulations, résultat : 1, 22× 102



Seconde méthode :

13





On constate donc que la seconde méthode est plus robuste.

14

Chapitre 2

Simulation de variables aléatoires

2.1 Loi uniforme

Nous commençons par la loi uniforme car nous l’utiliserons ensuite pour si-

muler les autres lois.

En pratique un ordinateur ne sait engendrer que des suites de nombres déter-

ministes : il est incapable de générer une suite "réellement" aléatoire. Par contre,

il est possible de construire des suites de nombres qui se comportent (statistique-

ment) comme des suites aléatoires.

Les suites les plus courantes produites par les ordinateurs sont calculées à

partir d’un nombre M d’entiers 0, . . . ,M − 1. En divisant par M , on obtient

ainsi une suite sur [0, 1[. Elles sont construites sur la base de récurrences de la

forme

un+1 = g(un) , n ∈ N

où g est une fonction de 0, . . . ,M − 1 dans lui-même et u0, appelé graine, est à

initialiser dans 0, . . . ,M − 1. On pose alors

xn =unM∈ [0, 1[ , n ∈ N.

L’exemple le plus simple est celui de la congruence mixte :

g(u) = (Au+ C) mod M

15

où A et C sont des réels positifs à choisir (dans le cas C = 0, on parle de

congruence multiplicative).

Une fois que nous pouvons simuler la loi U[0,1], il est possible de simuler la loi

U[a,b] pour a ≤ b en utilisant le fait que si Y ∼ U[0,1] alors a+ (b− a)Y ∼ U[a,b].

2.2 Méthode d’inversion

La méthode d’inversion (de la fonction de répartition) est basée sur le résultat

suivant.

Proposition 3. Soit Y une variable aléatoire réelle à valeurs dans R de fonction

de répartition FY . On pose

F−1Y (u) : = infy ∈ R : FY (y) ≥ u u ∈ [0, 1].

Notons dom(F−1Y ) = y ∈ R : F−1

Y (y) 6= ±∞. Si U ∼ Udom(F−1Y ) alors F−1

Y (U)

et Y ont la même loi.

Démonstration. Par définition de F−1Y nous avons

P[F−1Y (U) ≤ y] = P[U ≤ FY (y)] = FY (y)

pour tout y ∈ R. 2

Notons que ce résultat permet de simuler également des variable aléatoires à

support discret. Si Y a pour loi P[Y = yk] = pk, k ∈ N, alors si U ∼ U[0,1]

Y := y01U≤p0 +∑i≥1

yi1∑i−1j=0

pj<U≤∑i

j=0pj

a même loi que Y . Pour simuler Y , on simule donc U ∼ U[0,1] et on utilise la

boucle

p = p0; j = 0;

Tant que (p < U)

Faire j = j + 1; p = p + pj

Fin Tant que

Y = yj;

16

Notons que cela peut être très coûteux si la loi de Y est très dispersée. Nous

présentons deux exemples dans la suite.

Le premier concerne la loi exponentielle. Supposons que Y ∼ E(λ) avec λ >

0. Alors

FY (y) = 1− e−λy , y ∈ R.

Nous obtenons donc F−1Y (u) = − 1

λlog(1− u). Ainsi si U ∼ U(0,1) et en utilisant

le fait que 1 − U ∼ U(0,1), nous obtenons que Y = − 1λ

log(U) suit la même loi

que Y .

Le second exemple concerne la loi de Bernoulli. Supposons que Y ∼ B(p)

avec p ∈]0, 1[. Si U ∼ U(0,1) alors Y a même loi que 1U≤p. Avec ce procédé,

on peut également simuler une loi binomiale de paramètre (n, p) en utilisant la

variable aléatoire∑ni=1 1Ui≤p où U1, . . . , Un sont i.i.d. de loi U(0,1).

2.3 Méthode du rejet

a-Loi conditionnelle et loi uniforme sur un domaine

Proposition 4. Soit (Zn)n≥1 une suite de v.a. i.i.d. à valeurs dans Rd et soit D ⊂Rd tel que P[Z1 ∈ D] > 0. On pose

ν1 := infk ≥ 1 : Zk ∈ D

νn+1 := infk > νn : Zk ∈ D

Yn := Zνn pour n ≥ 1.

Alors, (Yn)n≥1 est une suite de v.a. i.i.d. de loi ρ donnée par

ρ(A) = P[Z1 ∈ A|Z1 ∈ D]

pour A borélien de Rd.

Démonstration. Par récurrence. 2

Cette proposition nous permet alors de construire des variables aléatoires de

loi uniforme sur un ensemble donné.

17

Corollaire 1. En reprenant les notations de la Proposition 4 et en supposant que

les Zn suivent la loi uniforme surd∏i=1

[ai, bi] alors les Yn suivent la loi uniforme sur

D.

Démonstration. Calculer la densité. 2

b-Lois à densité La méthode de rejet peut également être utilisée lorsqu’on

connaît la densité de Y .

Proposition 5. Soit f une densité sur Rd, (Zn)n≥1 une suite de variables aléa-

toires indépendantes de densité g sur Rd, et soit (Un)n≥1 une suite de variables

aléatoires indépendantes suivant une loi uniforme sur [0, 1], indépendantes de la

suite (Zn)n≥1. On pose

ν1 := infk ≥ 1 : f(Zk) > aUkg(Zk)

νn+1 := infk > νn : f(Zk) > aUkg(Zk)

Yn := Zνn pour n ≥ 1,

où a est un réel fixé vérifiant f(z) ≤ ag(z) pour tout z ∈ Rd. Alors, la suite

(Yn)n≥1 est une suite de variables aléatoires indépendantes de même densité f .

Démonstration. Utiliser la Proposition 4. 2

2.4 Méthode par transformation

Cette méthode consiste à écrire une v.a. Y comme une fonction g d’une autre

v.a.X qu’il est possible de simuler facilement. Elle repose sur la formule de chan-

gement de variables suivante.

Théorème 3 (Formule de changement de variables). Soit φ un difféomorphisme

d’un ouvert D ⊂ Rd sur un ouvert ∆ ⊂ Rd, et soit g une fonction borélienne

bornée de ∆ dans R, alors∫∆g(v)dv =

∫Dg(φ(u))|det(∇(φ)(u))|du .

18

Une conséquence directe est le résultat suivant.

Corollaire 2. Soit X un vecteur aléatoire de densité f sur Rd. On suppose que

X ∈ D p.s. où D est un ouvert de Rd. Soit ψ un difféomorphisme de D sur un

ouvert ∆. Alors Y := ψ(X) a pour densité

f(ψ−1(·))∣∣∣det(∇(ψ−1)(·))

∣∣∣1∆(·).

a. Cas Gaussien. La méthode par transformation permet de simuler les variables

aléatoires gaussiennes. Nous commençons par les guassiennes standards pour les-

quelles nous proposons deux méthodes.

Proposition 6 (Box-Müller). Soit (U, V ) ∼ U]0,1[2 et

X :=»−2 log(U) cos(2πV ), Y :=

»−2log(U) sin(2πV ).

Alors (X, Y ) ∼ N (0, I2).

Proposition 7 (Algorithme polaire). Soit (U, V ) uniformément distribuée sur (u, v) ∈R2 : 0 < u2 + v2 < 1. Posons R2 := U2 + V 2 et

X := U»−2 log(R2)/R2, Y := V

»−2 log(R2)/R2.

Alors (X, Y ) ∼ N (0, I2).

Les deux méthodes précédentes permettent donc de simuler la loi N (0, Id)

puisque Y = (Y1, . . . , Yd) ∼ N (0, Id) si et seulement si (Yi)di=1 est une suite de

variables aléatoires indépendantes de même loi N (0, 1).

Etant donné une matrice définie positive Γ ∈ Rd×d et un vecteur µ de Rd, on

simule également facilement un vecteur de loi N(µ,Γ) en utilisant la procédure

de factorisation de Cholesky.

Proposition 8. Soit µ un vecteur de Rd et Γ une matrice de Rd×d définie positive.

(1) Il existe A ∈ Rd×d telle que AA∗ = Γ.

(2) Si Y ∼ N (0, Id), alors X = µ+ AY ∼ N (µ,Γ).

Pour simuler un vecteur gaussien de loi N (µ,Γ) on procède donc ainsi. On

commence par calculer la matrice A en utilisant l’algorithme de décomposition

de Cholesky. On simule ensuite un vecteur Y ∼ N (0, Id) en utilisant la formule

de Box-Müller ou l’algorithme polaire, puis, on calcule µ+ AY .

19

b. Loi et processus de Poisson Si (Tk)k≥1 est une suite i.i.d. de loi exponentielle

E(λ), λ > 0, alors

Y :=∞∑n=1

n1∑nk=1

Tk≤1≤∑n+1

k=1Tk

suit une loi de Poisson P(λ) :

P [Y = k] =λk

k!e−λ, k ≥ 0.

En utilisant la méthode par transformation, on en déduit que si (Uk)k≥1 est une

suite de v.a. i.i.d. de loi U[0,1] alors la suite (− 1λ

log(Uk))k≥1 est une suite de v.a.

i.i.d. de loi E(λ). Par conséquent

Y :=∞∑n=1

n1∑nk=1− 1λ

log(Uk)≤1<∑n+1

k=1− 1λ

log(Uk)

=∞∑n=1

n1∏n+1k=1

Uk<e−λ≤∏nk=1

Uk

suit la loi de Poisson P(λ). De manière plus générale cette méthode permet de

simuler le processus de Poisson (Nt)t≥0 de paramètre λ en posant

Nt =∞∑n=1

n1∏n+1k=1

Uk<e−λt≤∏nk=1

Uk, t ≥ 0 .

En particulier Nt ∼ P(λt) pour t ≥ 0.

2.5 Variables corrélées et conditionnement

Variables corrélées. Considérons un couple de v.a. (X, Y ) admettant une den-

sité f . On peut réécrire cette densité sous la forme

f(x, y) = fX(x)f(y|X = x)

où fX est la densité de X et f(·|X = x) est la densité de Y sachant X = x.

Pour simuler (X, Y ), on commence donc par simuler X selon la densité fX puis

on simule Y (indépendamment) selon la loi f(·|X = x) où x est la valeur prise

par la simulation de X . Notons que lorsque X et Y sont indépendantes, on a

simplement f(·|X = x) = fY et cela revient a simuler X et Y indépendamment,

chacune selon sa loi marginale.

20

Techniques par conditionnement.1er cas. On suppose que la loi de Y s’écrit

fY (y) =∑i≥0

pifi(y),

où les fi sont des densités et les pi sont positifs (et donc ont une somme égale à

1 car fY est aussi une densité). On peut voir fY comme la densité marginale du

couple (X, Y ) où X a pour loi P(X = i) = pi et Y a pour loi fi conditionnelle-

ment à X = i. On peut donc procéder comme ci-dessus. Cela n’a évidemment

d’intérêt que si l’on sait simuler les fi.

Par exemple, si Y a pour densité

fY (y) = αfσ(y) + (1− α)fγ(y) , y ∈ R ,

où α ∈]0, 1[ et fσ (resp. fγ) est la densité de la loi N (0, σ2) (resp. N (0, γ2)), on

commence par tirer une loi uniforme U sur [0, 1]. Si U ≤ α, on tire ensuite Y

selon la loi N (0, σ2). Si U > α, on tire Y selon la loi N (0, γ2). Ceci revient à

poser p1 = α, p0 = 1− α, f1 = fσ et f0 = fγ . X suit alors une loi de Bernouilli

de paramètre α, i.e. P(X = 1) = α. On parle de mélange de gaussiennes.

2ème cas. On peut écrire la loi de Y sous la forme

fY (y) =∫g(y, x)dx,

où g est une fonction positive. Là encore, g est la densité d’un couple (X, Y ) où

Y a pour loi marginale fY . On peut donc commencer par simuler X selon sa loi

marginale fX(x) =∫g(y, x)dy puis on simule Y selon g(·,x)

fX(x)où x est la valeur

prise par la simulation de X .

2.6 Exercices

Simulation de la loi binomialeOn cherche à simuler une variable aléatoire X suivant une loi Binomiale de para-

mètres n ≥ 1 et p ∈]0, 1[.

21

1. En utilisant le fait que X peut s’écrire comme la somme de n variables

aléatoires Y1, . . . , Yn i.i.d. de loi de Bernoulli de paramètre p, simuler X à

partir de lois uniformes.

En utilisant le fait queX = Y1+· · ·+Yn, il suffit alors de simuler n variables

aléatoires de loi uniforme U1, . . . , Un. Les valeurs de Y1, . . . , Yn sont alors

données par

Yi = 1Ui≤p , 1 ≤ i ≤ n .

La valeur simulée de X est alors donnée par

X = 1U1≤p + · · ·+ 1Un≤p .

2. Donner la fonction de répartition de X et calculer son inverse généralisé.

En déduire une méthode de simulation de X .

La fonction de répartition de X est donnée par

FX(x) = P(X ≤ x) =n∑k=1

P(X = k)1[k,k+1[(x)

=n∑k=1

Cknp

k(1− p)n−k1[k,k+1[(x) , x ∈ R .

On en déduit son inverse généralisé :

F−1X (u) = infx ∈ R : FX(x) ≥ u

=n∑k=1

k1∑ki=1

pi≤u<∑k+1

i=1pi

avec pi := Cinp

i(1 − p)n−i pour 1 ≤ i ≤ n. On peut alors simuler X en

simulant une variable aléatoire U suivant une loi U[0,1] et en calculant la

valeur F−1X (U).

3. Tester les deux méthodes pour différentes valeurs de n, disons 5, 20, 100 et

1000, et comparer les temps de simulation.

On constate théoriquement que la première méthode demande plus de si-

mulation que la seconde.

22

Pour la première méthode X peut être simulée à l’aide du code R suivant :

X=0

U<-runif(n)

for (k in 1:n)if (U[k]<=p) X=X+1

On utilise ensuite la commande Sys.time() pour obtenir le temps de

calcul : T1<-Sys.time()

X=0

U<-runif(n)

for (k in 1:n)if (U[k]<=p) X=X+1

T2<-Sys.time()

Tdiff=T2-T1

Pour la seconde méthode, l’inverse de la fonction de répartition peut être

implémentée en langage R à l’aide du code suivant.

invcdf<-function(u,n,p)

c=0

sp=0

for (k in 1:n)if (u>=sp+choose(n,k)*pˆk*(1-p)ˆ(n-k))

c=c+1; sp=sp+choose(n,k)*pˆk*(1-p)ˆ(n-k)

return(c)

La simulation de la variable X est alors donnée par le code R suivant

U=runif(1)

X=invcdf(U,n,p)

On utilise ensuite la fonction Sys.time() pour obtenir le temps de cal-

cul :

23

T1<-Sys.time()

U=runif(1)

X=invcdf(U,n,p)

T2<-Sys.time()

Tdiff=T2-T1

On obtient alors les résultats suivants

n p temps 1ère méthode (sec) temps 2ème méthode (sec)

5 0,1 1, 27× 10−2 1, 12× 10−2

20 0,1 1, 61× 10−2 2, 10× 10−2

100 0,1 1, 16× 10−2 1, 85× 10−2

1000 0,1 2, 54× 10−2 2, 30× 10−2

5 0,5 1, 16× 10−2 6, 11× 10−3

20 0,5 1, 15× 10−2 1, 87× 10−2

100 0,5 2, 14× 10−2 2, 23× 10−2

1000 0,5 2, 09× 10−2 2, 19× 10−2

5 0,9 1, 18× 10−2 7, 36× 10−3

20 0,9 1, 18× 10−2 1, 86× 10−2

100 0,9 2, 82× 10−2 1, 65× 10−2

1000 0,9 1, 29× 10−2 1, 91× 10−2

On constate que les deux méthodes donnent des temps de calcul comparables.

Loi gamma

1. Montrer que si X1 et X2 sont deux variables aléatoires indépendantes de

lois respectives γ(α1) et γ(α2) (avec α1, α2 > 0) alors X1 +X2 suit une loi

γ(α1 + α2).

La loi γ(α) est la loi de densité fγ(α) donnée par

fγ(α)(x) = 1x>0xα−1

Γ(a)e−x , x ∈ R .

24

La densité de X1 +X2 est alors donnée par

fX1+X2(z) =∫RfX1(z − y)fX2(y)dy

=1

Γ(α1)Γ(α2)e−z1z>0

∫ ∞0

(z − y)α1−1yα2−1dy

=1

Γ(α1)Γ(α2)e−z1z>0z

α1+α2−1∫ ∞

0(1− y

z)α1−1

Åyz

ãα2−1dy

z

=1

Γ(α1)Γ(α2)e−z1z>0z

α1+α2−1∫ ∞

0(1− x)α1−1xα2−1dx

cette fonction étant une densité nous obtenons

fX1+X2(z) =1

Γ(α1 + α2)e−z1z>0z

α1+α2−1

ce qui est la densité de la loi γ(α1 + α2).

2. Rappeler quelle est la loi γ(1) et comment la simuler. En déduire la simula-

tion d’une loi γ(α) avec α ∈ N∗ (appelée aussi loi d’Erlang).

Pour α = 1, la loi γ(1) est la loi exponentielle E(1). On peut simuler cette

loi par inversion puisque on connait sa fonction de répartition qui est donnée

par

FE(1)(x) = 1x>0(1− e−x) , x ∈ R .

Son inverse est alors donné par

F−1E(1)(u) = − ln(1− u) , u ∈]0, 1] .

Pour simuler la loi γ(1) il suffit donc de simuler U ∼ U[0,1] et de calculer

F−1E(1)(U).

Pour simuler γ(α) avec α ∈ N∗, il suffit de simuler α variables aléatoires

U1, . . . , Uα i.i.d. de loi U[0,1] et de calculer F−1E(1)(U1) + · · ·+ F−1

E(1)(Uα).

3. En utilisant la méthode de rejet proposer une méthode pour simuler une loi

γ(α) avec α ∈]0, 1[. En déduire alors un algorithme permettant de simuler

une loi γ(α) pour tout α > 0 et tester cet algorithme (indication : écrire α

comme somme de sa partie entière et de sa partie décimale).

25

On peut utiliser la Proposition 5 avec f la densité de la loi γ(α) et g la

densité définie par

g(x) =1

a

Åe−x +

1

αxα−11]0,1[(x)

ã, x ∈ R ,

avec a = 2. Nous avons alors f ≤ ag et on peut appliquer le résultat

de la Proposition 5. Pour simuler une variable aléatoire Z de densité g, il

suffit de simuler des variables aléatoires Y ∼ E(1), W de densité x 7→1αxα−11]0,1[(x) et B ∼ B(1

2) mutuellement indépendantes et de calculer

Z = BY + (1−B)W

Enfin pour simuler γ(α), on simule γ(α − Ent[α]) et γ(Ent[α]) indépen-

damment.

26

Chapitre 3

Méthodes de réduction de variance

3.1 Variables de contrôle

Etant donnée une variable aléatoire X , on cherche à calculer E[X] par simu-

lation Monte Carlo. Il s’agit donc d’obtenir des simulations les moins dispersées

possible. On cherche alors une variable aléatoire Y telle que

— E[Y ] est explicite ou facile à calculer,

— V(X + Y ) est ‘très petite’ devant V(X).

Dans ce cas on peut calculer E[X] = E[X + Y ]− E[Y ] en estimant E[X + Y ] et

en calculant E[Y ]. Cette méthode d’approximation est alors plus rapide que celle

qui consiste à estimer directement E[X] du fait que V(X + Y ) est petite devant

V(X) et que les estimations par Monte Carlo convergent à une vitesse qui dépend

de la variance. La variable Y est alors appelée variable de contrôle.

Exemple 1. On cherche à calculer l’intégrale I :=∫ 10 e

xdx. Notons que cette

intégrale peut être réécrite sous la forme I = E[eU ], où U ∼ U[0,1]. En utilisant

l’approximation ex ≈ 1 + x valable au voisinage de 0, on propose alors comme

variable de contrôle Y = 1 + U , la variable X étant donné par X = eU . L’es-

pérance de Y est explicite : E[Y ] = E[1 + U ] = 32. Nous calculons alors les

27

variances.

V(X) =1

2(e2 − 1)− (e− 1)2 ≈ 0, 242

V(X + Y ) =1

2e2 − 2e+

11

6− (e− 5

2)2 ≈ 0, 0436

On réduit donc la variance d’un facteur 5, ce qui nous dit que Y est une bonne

variable de contrôle. En pratique, on estime I en utilisant

I =3

2+ lim

N→+∞

1

N

∑N→+∞

1

N

N∑n=1

(eUk − 1− Uk) .

Exemple 2 (Variable de Kemna et Vorst pour options asiatiques). On cherche à

estimer le prix P (x) d’une option d’achat asiatique de prix d’exercice K dans le

modèle de Black & Scholes. En supposant le taux d’intérêt constant égal à r, ce

prix prend la forme

P (x) = EïϕÅ 1

T

∫ T

0(xe(r−σ2/2)t+σWtdt

ãòavec ϕ : u 7→ (u−K)+. On propose alors d’utiliser comme variable de contrôle

Y = xe( 1T

∫ T0

((r−σ2/2)t+σWt)dt .

Notons que par l’inégalité de Jensen, nous avons E[X] ≥ E[Y ]. Par ailleurs, le

calcul de E[Y ] peut être fait explicitement. En effet,∫ T

0Wtdt = TWT −

∫ T

0tdWt =

∫ T

0(T − t)dWt ∼ N

Å0,∫ T

0s2ds

äEn utilisant la formule de Black & Scholes, on peut alors calculer E[Y ]. Numé-

riquement on constate que cette variable de contrôle fonctionne bien pour r et σ

petits.

3.2 Variables antithétiques

L’idée du contrôle antithétique est la suivante. Considérons une variable aléa-

toire U ∼ U[0,1] et cherchons à calculer I = E[f(U)]. Puisque 1−U ∼ U[0,1] nous

avons

I =1

2

ÄE[f(U)] + E[f(1− U)]

ä.

28

On peut alors approcher I par

I2N :=1

N

Å1

2

Äf(U1) + f(1− U1)

ä+ · · ·+ 1

2

Äf(UN) + f(1− UN)

äã=

1

2N

Åf(U1) + f(1− U1) + · · ·+ f(UN) + f(1− UN)

ã.

Comparons les variances :

V(I2N) =1

(2N)2× 2N × V(U1) =

1

2NV(U1)

V(I2N) =1

(2N)2×N × V(f(U1) + f(1− U1))

=1

2N

ÄV(U1) + Cov(f(U1), f(1− U1))

äOn en déduit que si f(U1) et f(1− U1) sont négativement corrélées, i.e.

Cov(f(U1), f(1− U1)) ≤ 0 ,

il est préférable d’utiliser I2N .

Nous nous intéressons maintenant aux conditions portant sur f sous lesquelles

la corrélation est négative. Pour cela nous avons besoin du résultat intermédiaire

suivant.

Lemme 2. SoitX une variable aléatoire réelle et f et g deux fonctions croissantes

(respectivement décroissantes). Alors

E[f(X)g(X)] ≥ E[f(X)]E[g(X)]

i.e. Cov(f(X), g(X)) ≥ 0 .

De plus cette inégalité est stricte si f et g sont strictement monotones sur un même

ensemble de mesure non nulle pour PX .

Démonstration. Soit Y une variable aléatoire indépendante deX et de même loi.

Puisque f et g sont croissantes, nous avons

(f(X)− f(Y ))(g(X)− g(Y )) ≥ 0

29

ce qui donne en prenant l’espérance

E[f(X)g(X)] + E[f(Y )g(Y )] ≥ E[f(X)g(Y )] + E[f(Y )g(X)] .

En utilisant l’indépendance de X et Y et leur égalité en loi nous obtenons le

résultat. 2

Proposition 9. Si f est monotone, alors Cov(f(U1), f(1 − U1)) ≤ 0 . De plus

cette inégalité est stricte si f est strictement monotone sur un sous ensemble de

[0, 1] de mesure de Lebesgue non nulle.

Démonstration. Il suffit d’appliquer le lemme précédent avec f(u) = −f(u) et

g(u) = f(1− u). 2

Cas du modèle de Black & Scholes. Dans le cas du modèle de Black & Scholes,

il et naturel d’utiliser la propriété de symétrie du mouvement brownien :W et−Wont même loi i.e. φ(x) = −x. On en déduit que XT := exp(r − σ2/2)T − σWT )

a même loi que X−T := exp(r − σ2/2)T + σWT ).

Le résultat suivante valide alors X−T comme variable antithétique.

Proposition 10. Si f est monotone et σ > 0, alors

Cov(f(XT ), f(X−T )) ≤ 0

avec inégalité stricte si f est strictement monotone sur un domaine de mesure non

nulle.

Démonstration. Notons g la densité de la loi normale centrée de variance T ,

m = E[f(XT )] et f(WT ) = f(XT ). Sans perte de généralité, on peut supposer

que f est croissante. Posons

c := infy ∈ R : f(y) ≥ m .

On a alors∫(f(w)−m)(f(−w)−m)g(w)dw =

∫(f(w)−m)(f(−w)− f(−c))g(w)dw

+(f(−c)−m)∫

(f(w)−m)g(w)dw .

30

Par définition de m, on a∫

(g(w) − m)f(w)dw = 0. La monotonie de f nous

donne

(f(w)−m)(f(−w)− f(−c)) ≤ 0,

avec inégalité stricte sur un domaine de mesure non nulle f est strictement mono-

tone sur un domaine de mesure non nulle. 2

Cas de la dimension d > 1. La méthode du contrôle antithétique se généralise

au cas de la dimension supérieure à 1 de la manière suivante. On se donne une

fonction borélienne bornée f : Rd → R et Y1, . . . , Yd des variables aléatoires

indépendantes et on cherche à estimer E[f(Y1, . . . , Yd)].

Nous commençons par généraliser le Lemme 2 à la dimension d

Lemme 3. Soient g et h deux fonctions boréliennes bornées de Rd dans R. Suppo-

sons que f et g sont croissantes (resp. décroissantes) composante par composante.

Alors

E[g(X1, . . . , Xd)h(X1, . . . , Xd)] ≥ E[g(X1, . . . , Xd)]E[h(X1, . . . , Xd)]

i.e. Cov(g(X1, . . . , Xd), h(X1, . . . , Xd)) ≥ 0 .

Démonstration. Nous montrons le résultat par récurrence sur d. Pour d = 1 le

résultat nous est donnée par le Lemme 2. Supposons le résultat vrai pour d et

mpontrons le au rang d+ 1. Définissions les fonctions G et H de R dans R par

G(x) = E[g(X1, . . . , Xd, x)]

H(x) = E[h(X1, . . . , Xd, x)]

K(x) = E[g(X1, . . . , Xd, x)h(X1, . . . , Xd, x)]

pour x ∈ R. Par hypothèse de récurrence nous avons

K(x) ≥ G(x)H(x)

pour tout x ∈ Rd. Par indépendance des variables aléatoires Xi, nous avons

G(Xd+1) = E[g(X1, . . . , Xd, Xd+1)|Xd+1] ,

H(Xd+1) = E[h(X1, . . . , Xd, Xd+1)|Xd+1] .

31

Comme les fonction G et H sont croissantes (resp. décroissantes), nous en dédui-

sons que

E[K(Xd+1)] ≥ E[G(Xd+1)H(Xd+1)]

≥ E[G(Xd+1)]E[H(Xd+1)]

ce qui par définition de K, G et H nous donne le résultat pour d+ 1.

Le résultat suivant concerne les lois symétriques.

Proposition 11. Supposons que f est croissante (resp. décroissante) composante

par composante et que la loi des Yi est symétrique. Alors

VÅf(Y1, . . . , Yd) + f(−Y1, . . . ,−Yd)

2

ã≤ V

Åf(Y1, . . . , Yd)

ã.

Démonstration. Il suffit d’appliquer le Lemme 3 avec g(x1, . . . , xd) = f(x1, . . . , xd)

et h(x1, . . . , xd) = −f(−x1, . . . ,−xd) pour (x1, . . . , xd) ∈ Rd.

Pour le cas des lois uniformes nous avons le résultat suivant.

Proposition 12. Supposons que f est croissante (resp. décroissante) composante

par composante et que la loi des Yi est U[0,1]. Alors

VÅf(Y1, . . . , Yd) + f(1− Y1, . . . , 1− Yd)

2

ã≤ V

Åf(Y1, . . . , Yd)

ã.

Démonstration. Il suffit d’appliquer le Lemme 3 avec g(x1, . . . , xd) = f(x1, . . . , xd)

et h(x1, . . . , xd) = −f(1− x1, . . . , 1− xd) pour (x1, . . . , xd) ∈ Rd.

3.3 Stratification

Cette méthode est classique en théorie des sondages. On considère une va-

riable aléatoireX à valeurs dans Rd et on cherche à estimer E[f(X)] où f : Rd →R est une fonction mesurable bornée.

On découpe alors Rd en une partition (mesurable) Rd =⋃mi=1Ei . Les en-

sembles Ei sont alors appelés strates. L’espérance que l’on cherche à calculer

32

peut alors s’écrire

Eîf(X)

ó=

m∑i=1

E[f(X)1X∈Ei ]

=m∑i=1

E[f(X)|X ∈ Ei]P(X ∈ Ei) .

On suppose alors que les pi := P(X ∈ Ei) sont facilement calculables. On peut

ensuite simuler la loi conditionnelle de X sachant X ∈ Ei en utilisant par

exemple la méthode de rejet. On estime alors Eîf(X)

ópar

IN =m∑i=1

I iNipi

où

I iNi =1

Ni

Ni∑n=1

f(X ik) , 1 ≤ i ≤ m ,

N1, . . . , Nm étant des entiers tels que

N1 + · · ·+Nm = N

et (X ik)

1≤i≤mk≥1 une famille de variables aléatoires indépendantes telle que X i

k ∼L(X|X ∈ Ei). Pour mesurer la qualité de cette méthode, nous calculons la va-

riance de l’estimateur IN . Par indépendance, nous avons

V(IN) =m∑i=1

V(I iNi)p2i

et

V(I iNi) =1

Ni

V(X ik) .

En notant σ2i = V(X|X ∈ Ei), nous avons

V(IN) =m∑i=1

p2i

Ni

σ2i .

Pour comparer avec la variance V(IN) il faut choisir les N1, . . . , Nm = N . Nous

les choisissons donc de manière à minimiser∑mi=1

p2iNiσ2i sous la contrainte N1 +

· · ·+Nm. Nous obtenons

Ni = Npiσi∑m

i=1 pi σi, 1 ≤ i ≤ m .

33

Dans ce cas la variance optimale est alors donnée par

V(IoptN ) =1

N

Å m∑i=1

piσi

ã2

.

On compare cette variance à celle de IN .

V(f(X)) = E[f 2(X)]− E[f(X)]2

=m∑i=1

E[f 2(X)|X ∈ Ei]pi −Å m∑i=1

E[f(X)|X ∈ Ei]piã2

=m∑i=1

Äσ2i + E[f(X)|X ∈ Ei]2

äpi −

Å m∑i=1

E[f(X)|X ∈ Ei]piã2

≥m∑i=1

piσ2i ≥

Ä m∑i=1

piσiä2

.

Le dernière inégalité résultant de la convexité de x 7→ x2. En théorie, cet estima-

teur est donc meilleur dans tous les cas. Il reste cependant deux problèmes :

— calculer les pi,

— simuler la loi de X sachant X ∈ Ei.

Exemple 3. Soit X à valeurs dans R de fonction de répartition F supposée stric-

tement croissante. Fixons des réels p1, . . . , pm de [0, 1] tels que p1 + · · ·+pm = 1.

On définit a0 = −∞, a1 = F−1(p1), a2 = F (p1 + p2), . . . , am = F (1) et

E1 =]a0; a1], . . . , Em =]am−1, am[. Par construction, nous avons P(Xi ∈ Ei) =

F−1(ai) − F−1(ai−1) = pi. Il faut alors simuler une variable aléatoire Y ayant

la loi L(X|X ∈ Ei). Notons alors que nous avons

— P(Y ≤ x) = 1 si x ≥ ai,

— P(Y ≤ x) = 0 si x ≤ ai−1,

— P(Y ≤ x) = P(X∈]ai−1,x])P(X∈Ei) = F (x)−F (ai−1)

F (ai)−F (ai−1)si x ∈ Ei.

On eut ré-écrire cette fonction de répartition sous la forme

P(Y ≤ x) =F (x ∧ ai)− F (x ∧ ai−1)

F (ai)− F (ai−1), x ∈ R .

On peut alors simuler Y suivant cette fonction de répartition.

34

3.4 Fonction d’importance

Le but de cette méthode est de changer de mesure de probabilité ambiante pour

en trouver une qui favorise l’apparition de réalisations qui ont un impact positif

sur l’estimateur i.e. qui permettent de réduire sa variance.

On cherche à calculer E[g(X)] où X est une variable aléatoire admettant pour

densité f . Il s’agit alors de trouver une variable aléatoire auxiliaire Y de densité

f et une fonction g telle que

E[g(X)] = E[g(Y )]

et

V(g(Y )) ≤ V(g(X)) .

Notons que lorsque f est strictement positive et donnée, nous avons

E[g(X)] =∫g(x)f(x)

f(x)f(x)dx = E[g(Y )] .

Un choix naturel pour g est donc

g(x) =g(x)f(x)

f(x), x ∈ R .

Le changement de mesure consiste alors à trouver une mesure de probabilité Ptelle que X ait pour densité f sous P. Nous pouvons alors écrire

E[f(X)] = Eïf(X)g(X)

f(X)

òoù E désigne l’espérance sous P.

Il se pose alors la question de savoir comment changer la loi. Le but est de

minimiser V(g(Y )). L’espérance E[g(Y )] étant fixée, cela revient à minimiser

E[g2(Y )] =∫g2(x)f 2(x)

f(x)dx .

En supposant que f est strictement positive, posons f(x) = Cg(x)f(x) avec

C = 1∫g(x)f(x)dx

, nous obtenons alors V(g(Y )) = 0. Cette loi paraît optimale mais

35

n’est pas utilisable en pratique car elle nécessite de connaître la quantité qu’on

cherche à calculer E[g(Y )] = E[g(X)]. Il est alors possible de faire une première

approximation grossière de l’espérance et d’utiliser la loi où la constance C est

remplacée par cette approximation.

De manière similaire, on peut aussi choisir f proche d’un multiple de fg.

Exemple 4. (i) Considérons U ∼ U[0,1] et cherchons à calculer E[cos(π2U)].

Notons que

cos(π

2u)1[0,1](u) ≈ C(1− u2)1[0,1].

On choisit alors f(u) = 32(1− u2)1[0,1](u). On peut alors simuler suivant f

en inversant la fonction de répartition qui donnée par

F (u) =3

2(u− u3

3)1[0,1](u) + 1]1,+∞](u)

(ii) On cherche à estimer P = E[(1 − eσG)+] où G ∼ N (0, 1). On utilise alors

l’approximation

ex − 1 ∼ x quand x→ 0 .

la justification vient du fait que σ est en général petit dans les modèles fi-

nanciers. On écrit alors P sous la forme

P =∫R

(1− eσx)+

σ|x|σ|x|e

−x22

dx√2π

En faisant le changement de variable y = x2, on obtient

P =∫ +∞

0

(1− eσ√y)+ + (1− e−σ

√y)+

2√y

e−y2dy√2π

= Eï(1− eσ√Y )+√

2π√Y

òoù Y ∼ E(1

2).

(iii) En fiabilité, on est souvent amené à calculer P(f(G) ≥ K) qui est en gé-

néral une quantité petite (de l’ordre de 10−6). Toujours en supposant que

G ∼ N (0, 1) on a pour tout m

E[h(G)] = E[h(G+m)]

36

où h(y) = h(y)em2

2−my pour toute fonction h mesurable bornée, ce qui nous

donne

P(f(G) ≥ K) = Eî1f(G+m)≥Ke

−mG−m2

2

ó.

On choisit alors m de façon à minimiser le moment d’ordre 2 donné par

Eî1f(G+m)≥Ke

−2mG−m2ó= E

î1f(G)≥Ke

−mG+m2

2

ó.

Changement de mesure exponentiel. Soit X de fonction de répartition F et ψ

sa log-transformée de Laplace :

ψ(θ) = logE[eθX ] , θ ∈ R .

Posons Θ := θ ∈ R : ψ(θ) < +∞ que nous supposons non vide et considé-

rons la fonction de répartition Fθ définie par

Fθ(x) =∫ x

−∞eθu−ψ(θ)dF (u) , θ ∈ Θ .

Supposons que F admet la densité f , alors Fθ admet la densité fθ donnée par

fθ(x) = eθx−ψ(θ)f(x) , x ∈ R .

On peut alors calculer E[g(X)] par un changement de mesure exponentiel :

E[g(X)] =∫g(x)f(x)

fθ(x)fθ(x)dx

= eψ(θ)E[g(Xθ)e−θXθ

] ,

où Xθ a pour densité fθ. Il s’agit alors de choisir θ de manière à minimiser

e2ψ(θ)E[g2(Xθ)e−2θXθ]. Dans le cas où X ∼ N (0, 1), nous avons Xθ = X + θ et

ψ(θ) = θ2/2. On cherche alors à minimiser h donnée par

h(θ) = eθ2Eïg2(X + θ)e−2θ(X+θ)

ò, θ ∈ R.

On utilise alors l’algorithme de Robbins-Monro.

37

Théorème 4 (Algorithme de Robbins-Monro). Soit F : Rd × Rd → Rd et Z une

variable aléatoire sur Rd. On définit la suite (θn)n≥1 en fixant θ0 et par l’égalité

θn+1 = θn − γn+1F (θn, Zn+1) , n ≥ 0 .

où (γn)n≥1 est une suite de réels positifs vérifiants

+∞∑n=1

γ2n < +∞ et

+∞∑n=1

γ2n = +∞ .

et (Zn)n≥1 est une suite i.i.d. de même loi que Z. Notons F0 := ∅,Ω et Fn :=

σ(Zk, 1 ≤ k ≤ n) pour n ≥ 1. Supposons que il existe θ∗ tel que E[F (θ∗, Z)] = 0

et (θ − θ∗).E[F (θ, Z)] > 0 pour tout θ 6= θ∗. Supposons également qu’il existe

une constante C > 0 telle que

E[|F (θn, Zn+1)|2|Fn] ≤ C(1 + |θn|2) P− p.s. , n ≥ 1 , (3.1)

alors θn → θ∗ P-p.s. lorsque n→ +∞.

Lemme 4 (Robbins-Siegmund stochastique). Soient (Vn)n, (βn)n, (χn)n et (ηn)n

quatre suites de variable aléatoires positives (Fn)n-adaptées telles que

E[Vn+1|Fn] ≤ Vn(1 + βn) + χn − ηn

pour tout n ≥ 1. Alors, presque surement sur

Ω1 =¶∑

n

βn < +∞ et∑n

χn < +∞©

(Vn)n converge vers V∞ variable aléatoire positive finie et la série∑n ηn converge.

Démonstration. Posons αn =Ä n∏k=1

(1 + βk)ä−1

, V ′n = αn−1Vn, χ′n = αnχn et

η′n = αnηn. Nous avons alors

E[V ′n+1|Fn] ≤ V ′n + χ′n − η′n.

La suite Y définie par Yn = V ′n−∑n−1k=1(χ′k−η′k) est donc une surmartingale. Pour

m ∈ N∗ posons τm = infn :∑nk=1(χ′k − η′k) ≥ m. La surmartingale arrêtée

(Yn∧τm)n est donc minorée par −m et converge p.s. vers une variable aléatoire

38

finie d’après le théorème de Doob. Donc (Yn)n converge p.s. vers une limite finie

sur τm = +∞.

De plus, sur Ω1, lnn∏k=1

(1 + βk) =n∑k=1

ln(1 + βk) converge quand n → +∞

et donc (αn) converge vers α > 0. La convergence de la série∑n χn implique

donc celle de∑n χ′n sur Ω1. Puisque

∑n−1k=1 η

′n ≤ Yn +

∑n−1k=1 χ

′n , on en déduit

que la série à termes positifs∑n η′n converge sur Ω1 ∩ τm = +∞ et donc

aussi (V ′n). Ceci implique la convergence de la suite (Vn) et de la série∑n ηn sur

Ω1 ∩ τm = +∞. Or sur Ω1, la série∑n χ′n converge et donc il existe m ∈ N∗

tel que∑+∞n=1(χ′n − η′n) < m, i.e. τm = +∞. Ainsi Ω1 = ∪+∞

m=1Ω1 ∩ τm = +∞et la convergence et vraie sur Ω1. 2

Démonstration du Théorème 4. Par la formule de Taylor

|θn+1 − θ∗|2 = |θn − θ∗|2 + 2∫ 1

0(tθn + (1− t)θn+1 − θ∗).(θn+1 − θn)dt

≤ |θn − θ∗|2 + γ2nF (θn, Zn+1)2 − 2γn(θn − θ∗).F (θn, Zn+1)

En prenant l’espérance conditionnelle sachant Fn et en utilisant l’hypothèse (3.1)

nous obtenons

E[|θn+1 − θ∗|2|Fn] ≤ |θn − θ∗|2(1 + Cteγ2n)− 2γn(θn − θ∗).E[F (θn, Zn+1)|Fn] .

On applique le lemme de Robbins-Siegmund stochastique avec Vn = |θn − θ∗|2,

βn = Cγ2n, χn = 0 et ηn = 2γn(θn− θ∗).E[F (θn, Zn+1)|Fn]. Nous obtenons alors

que |θn − θ∗| → 0 car sinon cela contredirait la convergence de la série∑n ηn. 2

Pour appliquer ce résultat, on calcule ∇h. Pour cela on fait un premier chan-

gement de variable qui nous donne

h(θ) = Eîeθ2

2−θXg2(X)

ó, θ ∈ Rd .

Cette expression nous montre que la fonction h est deux fois dérivable dès qu’il

existe ε > 0 tel que E[g2+ε(X)] < +∞. La dérivée première nous est alors donnée

par

∇h(θ) = Eî(X − θ)e

θ2

2−θXg2(X)

ó, θ ∈ Rd .

39

Le calcul de la dérivée seconde nous montre que h est strictement convexe. On

applique alors ce résultat avec F : (θ, z) 7→ (z − θ)e θ2

2−θzg2(z) et Z = X et on

obtient la convergence à condition de vérifier la dernière inégalité.

3.5 Exercices

Echantillonnage d’importance et option digitaleOn cherche à calculer la probabilité p := P(f(X) ≥ K) où f : R → R est une

fonction mesurable, X ∼ N (0, 1) et K est une constante.

1. Donner l’intervalle de confiance à 5% pour p en fonction du nombre de

simulation N de l’estimateur Monte Carlo IN de p et du quantile q95%N (0,1).

D’après le cours, cet intervalle de confiance est donné parïIN ± q97,5%

N (0,1)

√V(1f(X)≥K)

N

ò.

Le calcul de la variance donne V(1f(X)≥K) = p − p2 ce qui donne pour

l’intervalle de confianceïIN ± q97,5%

N (0,1)

√p− p2

N

ò.

2. Que peut-on dire de la qualité de cet intervalle de confiance pour estimer la

quantité p lorsque p est proche de 0.

On note que la taille de cet intervalle est de l’ordre de√p. En effet, l’erreur

absolue est donnée par

|p− IN | ≈1, 96√p− p2

√N

Cette erreur est trop grande par rapport à la quantité que l’on cherche à

estimer p lorsque cette dernière est petite.

3. Donner alors le nombre de simulations nécessaires pour avoir une erreur

relative de l’ordre de 20% lorsque p = 10−6.

Dans ce cas l’erreur relative est donnée par∣∣∣∣p− INp

∣∣∣∣ ≈ 1, 96√p− p2

√Np

≈ 1, 96√Np

40

Ainsi pour que cette erreur relative soit de 20%, il fautN = 108 simulations.

4. On cherche alors à mettre en place un changement de fonction d’importance

pour favoriser l’apparition de réalisations et réduire ainsi la variance. Pour

cela, on note Xθ = X+θ pour θ ∈ R. Ecrire p comme une espérance d’une

fonction de Xθ.

Par definition de p, on a

p = P(f(X) ≥ K) =∫R1f(x)≥Kg(x)dx

où g désigne la densité de la loi N (0, 1). Notons gθ la densité de la loi

N (θ, 1), nous avons alors

p =∫R1f(x)≥Kg(x)dx

=∫R1f(x)≥K

g(x)

gθ(x)gθ(x)dx

= Eï1f(Xθ)≥K

g(Xθ)

gθ(Xθ)

ò.

On utilise ensuite la définition de g et gθ ce qui nous donne

p = Eï1f(Xθ)≥Ke

θ2

2−θXθ

ò.

5. En déduire une nouvelle expression de p en fonction de X .

On utilise Xθ = X + θ ce qui nous donne

p = Eï1f(X+θ)≥Ke

− θ2

2−θXò.

6. On suppose que f(x) = ex , x ∈ R. Calculer VÅ1f(X+θ)≥Ke

− θ2

2−θXã

.

En déduire qu’il existe un θ optimal i.e. minimisant la variance.

Pour minimiser la variance, il faut minimiser le moment d’ordre 2 donné

par

Eï1eX+θ≥Ke

−2θXòe−θ

2

=∫R1ex+θ≥Ke

−2θx e−x

2

2

√2πdxe−θ

2

=∫ +∞

ln(K)−θ

e−(x+2θ)2

2

√2π

dxeθ2

=∫ +∞

ln(K)+θ

e−y2

2

√2πdyeθ

2

41

On constate que cette fonction admet +∞ comme limite lorsque θ → ±∞ et est

continue. Elle admet donc un minimum.

Représentation exponentielle d’intégrales gaussiennesOn souhaite mettre en œuvre différentes méthodes de réduction de variance pour

des intégrales gaussiennes de la forme E[φ(G)] où φ : Rd → R est une fonction

donnée et G = (G1, . . . , Gd) un vecteur gaussien standard de Rd (et d grand).

1. Montrer rigoureusement qu’en dimension 1 (d = 1), on a

E[φ(G1)] = Eïφ(√Y1) + φ(−

√Y1)√

2πY1

ò,

où Y1 est une loi exponentielle de paramètre λ à déterminer.

Par définition de la loi E(λ) nous avons

Eïφ(√Y1) + φ(−

√Y1)√

2πY1

ò=

∫ +∞

0

φ(√y) + φ(−√y)√

2πyλe−λydy

On fait le changement de variable x =√y, nous obtenons

Eïφ(√Y1) + φ(−

√Y1)√

2πY1

ò=

∫ +∞

0

φ(x) + φ(−x)√2π

2λe−λx2

dx

=∫R

φ(x)√2π

2λe−λx2

dx

En prenant λ = 12

on obtient

Eïφ(√Y1) + φ(−

√Y1)√

2πY1

ò=

∫R

φ(x)√2πe−x

2/2dx = E[φ(G1)] .

2. En déduire (toujours pour d = 1) que pour B1 une variable aléatoire, in-

dépendante de Y1, suivant une loi de Bernoulli à valeurs dans −1, 1 on

a

E[φ(G1)] = Eï 2

π

φ(B1

√Y1)√

Y1

ò.

42

Puisque B1 est indépendante de Y1 et suit une loi de Bernoulli à valeurs

dans −1, 1 de paramètre 12

nous avons

Eï 2

π

φ(B1

√Y1)√

Y1

ò= E

ïEï 2

π

φ(B1

√Y1)√

Y1

∣∣∣∣Y1

òò=

1

2Eï 2

π

φ(√Y1)√Y1

ò+

1

2Eï 2

π

φ(−√Y1)√

Y1

ò= E[φ(G1)]

d’après la question précédente.

3. Montrer qu’en dimension d ≥ 1

E[φ(G)] = EïÅ 2

π

ã d2 φ(B1

√Y1, . . . , Bd

√Yd)√

Y1 × · · · × Yd

òIl suffit de procéder par récurrence en utilisant la question précédente et

l’indépendance des G1, . . . , Gd.

4. Dans la suite,on notera Z = (B1

√Y1, . . . , Bd

√Yd) et V (x) = |x1 · · ·xd|

pour tout x ∈ Rd. Programmer les estimateurs Igauss et Iexpo basés sur ces

deux représentations et comparer les résultats (la variance empirique et la

taille des intervalles de confiance) :

Igauss =1

N

N∑k=1

φ(Gk) et Iexpo =Å 2

π

ã d2 1

N

N∑k=1

φ(Zk)

V (Zk)

où (Gk)k≥1 est une suite i.i.d. de loi N (0; Id) et (Zk)k≥1 est une suite i.i.d.

de loi Z = (B1

√Y1, . . . , Bd

√Yd).

5. Quelle transformation T : Rd → Rd laisse invariante la loi de Z ? Mettre en

œuvre une méthode de réduction de variance utilisant cette transformation T

pour le calcul de E[ φ(Z)V (Z)

] et écrire l’estimateur de Monte-Carlo associé. Sous

quelle condition sur φV

sait-on théoriquement que la variance est réduite ?

L’application T : z 7→ −z laisse invariante la loi de Z. On peut donc mettre

en place une méthode de réduction de variance en estimant 12E[ φ(Z)

V (Z)] +

12E[ φ(−Z)

V (−Z)].

Sous la condition que φV

est strictement monotone composante par compo-

sante, la variance est réduite d’après le cours.

43

6. Montrer que VÅEîφ(Z)V (Z)|Yóã≤ V

Äφ(Z)V (Z)

ä. Ecrire formellement l’estimateur

de Monte-Carlo que cette inégalité suggère d’utiliser. Cette méthode vous

semble-t-elle efficace en grande dimension (Prendre en compte le nombre

d’évaluations de la fonction φV

) ?

L’inégalité VÅEîφ(Z)V (Z)|Yóã≤ V

Äφ(Z)V (Z)

ärésulte de l’inégalité de Jensen.

L’estimateur que suggère cette inégalité est donc

1

N

N∑n=1

1

2d∑

b1,...,bd∈±1

φ

V

Äb1Z

n1 , . . . , bdZ

nd

ä.

Cet estimateur n’est pas raisonnable : on fait beaucoup appel à φV

.

On va maintenant mettre en œuvre une méthode de stratification pour le vecteur

Y . On note dans la suite S1 = Y1, S2 = Y1 + Y2, . . ., Sd = Y1 + · · ·+ Yd.

7. En remarquant que S = AY avec det(A) = 1, montrer que le vecteur S

suit la loi de densité f par rapport à la mesure de Lebesgue sur Rd

f(s) = λde−λsd10<s1<s2<...<sd , s = (s1, . . . , sd) ∈ Rd .

8. En déduire que Sd suit la loi d’Erlang de densité g(s) = λd

(d−1)!sd−1e−λs1s>0

et que la loi de (S1, . . . , Sd−1) sachant Sd = x admet h pour densité sur

Rd−1 définie par

h(s1, . . . , sd−1) = (d− 1)!x−(d−1)10<s1<···<sd−1<x ,

pour s = (s1, . . . , sd−1) ∈ Rd−1.

On rappelle que le vecteur ordonné (Ux(1), . . . , U

x(d−1)) d’un vecteurU = (Ux

1 , . . . , Uxd−1)

uniformément distribué sur [0, x]d−1 suit la loi de densité h sur Rd−1.

9. Construire une partition (Ak)1≤k≤K vérifiant la propriété suivante

P[Sd ∈ Ak] =1

K,

pour tout k = 1, . . . , K. Indiquer précisément comment simuler Xk de loi

Sd sachant Sd ∈ Ak.

44

10. Déduire des questions 8. et 9. que

Eï φ(Z)

V (Z)

ò=

1

K

K∑k=1

EïφÄB1

»Ux

(1), B2

»Ux

(2) − Ux(1), . . . , Bd

»Xk − Ux

(d−1)

ä√Ux

(1)(Ux(2) − Ux

(1)) · · · (Xk − Ux(d−1))

òEcrire l’estimateur de Monte-Carlo stratifié en détaillant les différentes étapes

de simulation. Programmer cet estimateur et comparer à l’estimateur initial

IgaussN . Comment choisir le nombre de tirages par strate ?

45

Chapitre 4

Méthodes de quasi-Monte Carlo

4.1 Discrépance

Définition 2. Une suite (un)n≥1 dans [0, 1]d est dite uniforme sur [0, 1]d si pour

tout x ∈ [0, 1]d on a

limN→∞

1

N

N∑n=1

d∏i=1

1uni ≤xi =d∏i=1

xi.

Etant donnée une suite u = (un)n≥1 uniforme sur [0, 1]d, on définit la discré-

pance d’ordre p par

Dp(u,N) := ‖F − F uN‖Lp(Rd,dx) , p ∈ N ∪ +∞ ,

où F est la fonction de répartition de la loi U[0,1]d et F uN est définie par

F (x) :=d∏i=1

(xi1xi∈[0,1] + 1xi>1) et F uN(x) =

1

N

N∑n=1

d∏i=1

1uni ≤xi

pour N ≥ 1 et x ∈ [0, 1]d. Pour x ∈ [0, 1]d fixé, le terme F (x) − F uN(x) corres-

pond à la différence entre le volume théorique du rectangled∏i=1

[0, xi] et le volume

“empiriquement” estimé par la suite u. Si u est uniforme sur [0, 1]d, alors cette

différence doit tendre vers 0. La discrépance D∗p(u,N) mesure en quelque sorte la

bonne répartition des points de la suite u dans l’espace [0, 1]d.

46

Théorème 5. Il y a equivalence entre les deux propositions suivantes :

(i) u est uniforme sur [0, 1]d,

(ii) limN→+∞Dp(u,N) = 0 pour tout p ∈ N∗ ∪ +∞.

Démonstration. C’est une conséquence directe du théorème de convergence dominée.

2

L’intérêt de la notion de discrépance vient de l’inégalité de Koksma-Hlawka.

Avant d’énoncer ce résultat, on a besoin d’introduire la notion de fonction à varia-

tion finie.

Définition 3. Soit f : [0, 1]d → R et πi = ti0 = 0 < ti1 < . . . < tini = 1. On

note

V (f, πd, x) =nd∑k=1

|f(x1, . . . , xd−1, tdk)− f(x1, . . . , xd−1, t

dk−1)|

et de façon récursive

V (f, πk, . . . , πd, x) = V (V (f, πk+1, . . . , πd, .), πk, x)

pour x ∈ [0, 1]. La fonction f est dite à variation finie si sa variation V (f) définie

par

V (f) = sup(π1,...,πd)

V (f, π1, . . . , πd)

est finie

On montre par exemple que tout fonction f de classe C1 est à variations finies.

Pour de telles fonctions, nous avons alors une estimation de l’erreur d’approxima-

tion de l’intégrale par les valeurs moyennes suivant une suites en fonction de la

discrépance.

Théorème 6 (Inégalité de Koksma-Hlawka). Soit f : [0, 1]d → R une fonction à

variation finie. Pour toute suite u = (un)n≥1 dans [0, 1]d on a∣∣∣∣ ∫[0,1]d

f(x)dx−− 1

N

N∑n=1

f(un)∣∣∣∣ ≤ V (f)D∞(u,N),

pour tout N ≥ 1.

47

Pour calculer E[f(U)] où U ∼ U[0,1]d , on peut donc utiliser une suite (un)n≥1

uniforme sur [0, 1]d et calculer 1N

∑Nn=1 f(un). Plus la discrépance de la suite sera

faible et meilleur sera l’approximation de E[f(U)]. C’est une alternative aux mé-

thodes de Monte Carlo présentées dans les chapitres précédents. Lorsque la suite

(un)n≥1 est purement déterministe, comme c’est le cas pour les suites à discré-

pance faible présentées ci-dessous, on parle de nombres quasi-aléatoires.

4.2 Cas des suites i.i.d de loi U[0,1]

Si (Un)n≥1 est une suite de v.a. i.i.d. de loi U[0,1]d , elle est P−p.s. uniforme sur

[0, 1]d. On peut donc calculer sa discrépance Dp(U,N) qui est alors une quantité

aléatoire.

Théorème 7. Si (Un)n≥1 est une suite de v.a. i.i.d. de loi U[0,1]d alors

lim supN→+∞

N

2 ln lnND∞(U,N) =

1

2

et

E[D∞(U,N)] ≤ cd∞√N,

avec c∞d → +∞ lorsque d→ +∞.

Nous déduisons de ce résultat que

D∞(U,N) ≤ OÅ ln lnN

N

ãP− a.s.

4.3 Exemples de suites à discrépance faible

Il est possible de contruire des suites dans [0, 1]d dont la discrépance est plus

faible que celle obtenue pour les suites de v.a. i.i.d. de loi U[0,1]d . Nous présen-

tons dans la suite les exemples les plus simples à mettre en oeuvre. Il faut bien

garder en mémoire que si ces suites ont une discrépance faible asymptotiquement

lorsque N → +∞, celle-ci dépend généralement de la dimension d et peut deve-

nir très grande, à N fixé, lorsque la d augmente. En grande dimension, il est donc

préférable d’utiliser des suites i.i.d. de loi U[0,1]d .

48

a- Suite de Van Der CoruptSoit p un nombre premier. Alors tout entier n admet une unique décomposition

(en base p) de la forme

n =L−1∑k=0

dk(n)pk

avec donc 0 ≤ dk(n) < p. On pose

gp(n) =L−1∑k=0

dk(n)p−k−1 , n ≥ 1.

Alors il existe une constante C dépendant uniquement de b telle que (gp(n))n≥1

vérifie

D∞(gb(1), . . . , gb(N)) ≤ ClogN

N

pour tout N ≥ 1.

b- Suite de HaltonLa suite de Halton généralise la suite de Van Der Corput pour les dimen-

sions supérieures à 1. Soit s la dimension du problème et p1, . . . , ps les s premier

nombres premiers. On définit alors

xn = (gp1(n), . . . , gps(n)) , n ≥ 1.

Il existe une constante C dépendant uniquement de p1, . . . , ps, telle que (xn)n≥1

vérifie

D∞(x1, . . . , xN) ≤ C(logN)s

N

pour tout N ≥ 1.

c- Suite SQRT Pour tout réel x, on noteEnt[x] sa partie entière. Soit p1, . . . , pd

les d premiers nombres premiers. Pour tout n ≥ 1 et 1 ≤ i ≤ d, on pose uin =

n√pi − Ent[n

√pi].On a alors

D∞(u,N) = OÅ 1

N1−ε

ãpour tout ε > 0.

49

Chapitre 5

Sensibilités

On considère une variable aléatoire Xθ dépendant d’un paramètre θ réel. Plus

précisément, on suppose que Xθ est de la forme

Xθ = G(θ, Z)

où θ ∈]θ, θ[ avec θ < θ, G : ]θ, θ[×R → R est une fonction déterministe et Z

une variable aléatoire ne dépendant d’aucun paramètre telle que E[G(θ, Z)] existe

pour tout θ ∈]θ, θ[. On cherche à évaluer la dérivée I ′(θ) où

I(θ) = E[Xθ] = E[G(θ, Z)].

5.1 Méthode des différences finies

Une première approche consiste à approcher cette dérivée par une différence

finie.

a- Méthode naïveCette méthode vient du fait que pour une fonction f dérivable, nous avons

f(x+ h)− f(x)

h= f ′(x) + o(1) , h→ 0 .

50

Cette méthode consiste donc à approcher ∂I(θ)∂θ

par I(θ+h)−I(θ)h

avec h petit. Cette

dernière quantité peut elle même être approchée par IN (θ+h)−IN (θ)h

où

IN(θ) =1

N

N∑n=1

Xθn et IN(θ + h) =

1

N

N∑n=1

Xθ+hn

avec (Xθn)n≥1 et (Xθ+h

n )n≥1 des réalisations indépendantes de Xθ et Xθ+h respec-

tivement.

b- Méthode avec les mêmes aléasEn utilisant la représentation Xθ = G(θ, Z), il est possible de réduire le

nombre de simulation en considérant les même réalisation de Z. On considère

une suite (Zn)n≥1 de réalisations i.i.d. de Z de laquelle on dérive les estimateurs

suivants :

J1N,h(θ) =

1

N

N∑n=1

G(θ + h, Zn)−G(θ, Zn)

h

J2N,h(θ) =

1

N

N∑n=1

G(θ + h, Zn)−G(θ − h, Zn)

2h

Proposition 13. Supposons que

— θ 7→ Xθ soit Lipschitz en norme L2 sur ]θ, θ[ : il exists une constante L1

telle que

‖G(θ, Z)−G(θ′, Z)‖L2 ≤ L1|θ − θ′|

pour tout θ, θ′ ∈]θ, θ[,

— θ 7→ I(θ) de classe C2 avec I ′′(θ) L2-Lipschitz sur ]θ, θ[.

Alors

‖J1N,h(θ)− I ′(θ)‖2

L2 ≤1

4supξ∈]θ,θ[

|I ′′(ξ)|2h2 + L21

1

N

‖J2N,h(θ)− I ′(θ)‖2

L2 ≤1

4L2

2h4 + L2

1

1

N

pour N ≥ 1, θ ∈]θ, θ[ et h ∈ R tel que θ + h, θ − h ∈]θ, θ[.

51

Démonstration. On traite la première inégalité Par Taylor, nous avons

I(θ + h) = I(θ) + I ′(θ)h+ I ′′(ξ1)h2

2avec ξ1 ∈]θ, θ + h[ .

On en déduit que∣∣∣∣I(θ + h)− I(θ)

h− I ′(θ)

∣∣∣∣ =∣∣∣∣I ′′(ξ)h

∣∣∣∣h2

2

= supξ∈]θ,θ[

∣∣∣∣I ′′(ξ)∣∣∣∣h2 .

On décompose ensuite le moment d’orde 2 en biais-variance :

‖J1N,h(θ)− I ′(θ)‖2

L2 =ÅI(θ + h)− I(θ)

h− I ′(θ)

ã2

+ V(J2n,h(θ))

≤ 1

4supξ∈]θ,θ[

|I ′′(ξ)|2h2 +1

NEïÅG(θ + h, Z)−G(θ, Z)

h

ã2ò.

La fonction θ 7→ Xθ = G(θ, Z) étant L1-Lipschitz au sens L2, nous obtenons le

résultat souhaité.

On traite la seconde inégalité. Par Taylor, nous avons

I(θ + h) = I(θ) + I ′(θ)h+ I ′′(ξ1)h2

2avec ξ1 ∈]θ, θ + h[ ,

I(θ − h) = I(θ)− I ′(θ)h+ I ′′(ξ2)h2

2avec ξ2 ∈]θ − h, θ[ .

On en déduit que∣∣∣∣I(θ + h)− I(θ − h)

2h− I ′(θ)

∣∣∣∣ =∣∣∣∣I ′′(ξ1)− I ′′(ξ2)

2h

∣∣∣∣h2

2

=∣∣∣∣I ′′(ξ1)− I ′′(ξ2)

∣∣∣∣h4≤ L2 × 2h× h

4= L2

h2

2.

On décompose ensuite le moment d’orde 2 en biais-variance :

‖J2N,h(θ)− I ′(θ)‖2

L2 =ÅI(θ + h)− I(θ − h)

2h− I ′(θ)

ã2

+ V(J2n,h(θ))

≤ L22

h4

4+

1

NEïÅG(θ + h, Z)−G(θ − h, Z)

2h

ã2ò.

La fonction θ 7→ Xθ = G(θ, Z) étant L1-Lipschitz au sens L2, nous obtenons le

résultat souhaité. 2

52

5.2 Méthode par différentiation

Cette approche consiste à utiliser la régularité de la fonction G pa rapport à sa

première variable pour dériver sous l’intégrale.

Théorème 8 (Théorème de dérivation sous l’intégrale). On fixe un intervalle

fermé I de R. Supposons que

— θ 7→ G(θ, Z) est P-p.s. dérivable sur I ,

— il existe une variable aléatoire intégrable Y telle que∣∣∣∣∂G∂θ (θ, Z)∣∣∣∣ ≤ Y pour tout θ ∈ I, P− p.s.

Alors θ 7→ I(θ) est derivable sur I de dérivée

I ′(θ) = Eï∂G∂θ

(θ, Z)ò, θ ∈ I .

Une conséquence de ce théorème est qu’il est possible (en théorie) de construire

un estimateur sans biais de I ′(θ) dès lors qu’on est en mesure de calculer la dérivée∂G∂θ

.

Exemple 5. Supposon que I est donnée par

I(θ) = Eîf(Xθ)

ó, θ > 0 ,

où f : R→ R est dérivable de dérivée bornée etXθ ∼ E(θ) pour θ > 0. Alors on

peut supposer que Xθ est de la forme Eθ

où E ∼ E(1). Cela revient à considérer

le cas où G est donnée par

G(θ, e) = fÄeθ

ä, θ, e > 0 .

On calcule alors

∂G

∂θ(θ, e) = − x

θ2f ′Äxθ

äet

I ′(θ) = Eï− E

θ2f ′ÅEθ

ãò, θ > 0 .

53

5.3 Méthode de log-vraisemblance

On considère maintenant le cas où Xθ admet une densité notée p(θ, .) par

rapport à la mesure de Lebesgue. Supposons que la quantité I(θ) est donnée par

I(θ) = Eîf(Xθ)

ó=

∫f(x)p(θ, x)dx .

Supposons qu’il soit possible d’intervertir dérivée et intégrale. Un calcul formel

suivante nous donne une nouvelle expression de I ′(θ) :

I ′(θ) =∫f(x)

∂p

∂θ(θ, x)dx

=∫f(x)

∂ ln p

∂θ(θ, x)p(θ, x)dx

= Eïf(Xθ)

∂ ln p

∂θ(θ,Xθ)

ò.

On obtient donc une quantité qui ne fait pas intervenir la dérivée de f . La propo-

sition suivante formalise ce résultat.

Proposition 14. Supposons que θ 7→ p(θ, x) est dérivable pour presque tout x et

qu’il existe une fonction g : R→ R+ telle que∫|f(x)g(x)|dx < +∞

et

supθ∈]θ,θ[

∣∣∣∣p(θ, x)∂ ln p

∂θ(θ, x)

∣∣∣∣ ≤ g(x)

pour presque tout x ∈ R. Alors

I ′(θ) = Eïf(Xθ)

∂ ln p

∂θ(θ,Xθ)

òD’après la représentation précédente on peut alors mettre en oeuvre un esti-

mateur de type Monte Carlo de I ′(θ).

Exemple 6. Supposons que Xθ ∼ E(θ) pour θ > 0. Alors on peut supposer que

Xθ est de la forme Eθ

où E ∼ E(1). Alors

I(θ) =∫ +∞

0f(x)θe−θxdx , θ > 0 .

54

Nous avons p(θ, x) = θe−θx et ∂ ln p∂θ

(θ, x) = 1θ− x ce qui donne

I ′(θ) = Eïf(Xθ)

Å1

θ−Xθ

ãò.

Il faut noter qu’en pratique la variance de ce type d’estimateur peut être im-

portante. En revanche le point positif est qu’il n’y a pas besoin d’hypothèse de

régularité sur la fonction f .

55