Méthodes de Monte Carlo
Idris KHARROUBI
Sorbonne Université
.
Table des matières
1 Généralité sur les estimateurs Monte Carlo 41.1 Loi des grands nombres et estimation d’intégrales . . . . . . . . . 4
1.2 Vitesse de convergence et intervalles de confiance . . . . . . . . . 5
1.3 Exemples et exercices . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Simulation de variables aléatoires 152.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Méthode d’inversion . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Méthode du rejet . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Méthode par transformation . . . . . . . . . . . . . . . . . . . . 18
2.5 Variables corrélées et conditionnement . . . . . . . . . . . . . . . 20
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Méthodes de réduction de variance 273.1 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Variables antithétiques . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Fonction d’importance . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Méthodes de quasi-Monte Carlo 464.1 Discrépance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Cas des suites i.i.d de loi U[0,1] . . . . . . . . . . . . . . . . . . . 48
4.3 Exemples de suites à discrépance faible . . . . . . . . . . . . . . 48
2
5 Sensibilités 505.1 Méthode des différences finies . . . . . . . . . . . . . . . . . . . 50
5.2 Méthode par différentiation . . . . . . . . . . . . . . . . . . . . . 53
5.3 Méthode de log-vraisemblance . . . . . . . . . . . . . . . . . . . 54
3
Chapitre 1
Généralité sur les estimateursMonte Carlo
1.1 Loi des grands nombres et estimation d’intégrales
On fixe dans la suite un espace de probabilités (Ω,A,P). On considère sur cet
espace une suite (Xn)n≥1 de variables aléatoires indépendantes et identiquement
distribuées. On note alors SN la somme empirique jusqu’a l’indice N :
SN =1
N
N∑n=1
Xn ,
pour N ≥ 1.
Théorème 1 (Loi forte des grands nombres). Supposons que les Xn soient inté-
grables. Alors
SNP−p.s.−−−−→N→+∞
E[X1] .
La méthode de Monte Carlo est une application directe de ce résultat permet-
tant le calcul ‘pratique’ d’intégrales. Plus précisément, considérons une fonction
f : [0, 1]→ R measurable et notons I =∫ 10 f(u)du. On considère alors une suite
de variables aléatoires i.i.d. (Un)n≥1 de loi uniforme sur [0, 1]. D’après la loi forte
des grands nombres, nous obtenons la convergence suivante :
limN→+∞
1
N
N∑n=1
f(Un) = E[f(U1)] =∫ 1
0f(u)du .
4
Cette convergence nous permet alors de faire l’approximation suivante :∫ 1
0f(u)du ≈ 1
N
N∑n=1
f(Un)
De manière plus générale, si f est définie et mesurable sur Rd et g est une fonction
de densité de probabilité sur Rd alors la loi forte de grands nombres nous donne
limN→+∞
1
N
N∑n=1
f(Gn) = E[f(G1)] =∫Rdf(u)g(u)du .
où (Gn)n≥1 est une suite i.i.d. de densité g. Nous retrouvons alors encore l’ap-
proximation suivante :∫Rdf(u)g(u)du ≈ 1
N
N∑n=1
f(Gn) .
Remarque 1. Dans l’approximation précédente, le choix du paramètre N doit
être le plus grand possible pour réduire l’erreur d’approximation. Par contre il
faut prendreN le plus petit possible pour réduire le temps de calcul. Ainsi se pose
le choix de N qui est lié à la qualité de l’approximation précédente relative à
ce paramètre. On parle alors de vitesse de convergence. Cette vitesse est étudiée
dans la section suivante.
1.2 Vitesse de convergence et intervalles de confiance
Nous commençons par le principal résultat donnant la vitesse de convergence.
Théorème 2 (Théorème central limite). Supposons que les variables aléatoires
Xn soient à valeurs réelles et de carré intégrable. Notons m = E[X1] et σ2 =
V(X1). Alors
√NÅSN −m
ãL−−−−→
N→+∞N (0, σ2) .
La version multidimensionnelle est la suivante : si les Xn sont à valeurs dans
Rd alors√NÅSN −M
ãL−−−−→
N→+∞N (0,Σ2) .
5
où M = [m`]1≤`≤d et Σ2 = [σ2`,m]1≤`,m≤d désignent respectivement le vecteur
moyenne et la matrice de variance-covariance des Xn.
Le théorème central limite nous donne deux informations : la vitesse de conver-
gence qui est en√N et la variance de la loi asymptotique de l’erreur.
— La vitesse en√N est très lente (il faut multiplier par 4 le nombre d’itéra-
tions pour divisier l’erreur par 2). Il s’agit cependant de l’un des principaux
avantages de la méthode de Monte Carlo puisque cette vitesse ne dépend
pas de la dimension (contrairement aux méthodes déterministes).
— La variance est très importante en pratique car plus elle est grande, moins
l’approximation risque d’être efficace. Nous allons voir son rôle primor-
dial dans le ‘critère d’arrêt’ de la procédure basée sur les intervalles de
confiance.
Nous présentons maintenant la notion d’intervalle de confiance. Nous consi-
dérons dans la suite des variables aléatoires unidimensionnelles.
Intervalles de confiance asymptotiques. Nous commençons par les intervalles
de confiance limites.
Nous supposons dans cette section que la loi des variables aléatoiresXn, n ≥ 1
dépend d’un paramètre réel θ que l’on cherche à estimer.
Définition 1 (Intervalles de confiance asymptotique). Fixons un réel α ∈]0, 1[. Un
intervalle de confiance pour θ de niveau (probabilité de confiance) 1 − α est un
intervalle IN(X1, . . . , XN) dont les bornes sont des fonctions de X1, . . . , XN et
tel que
limN→+∞
P(θ ∈ IN(X1, . . . , XN)) ≥ 1− α .
Cas d’une variance σ2 connue. Dans le cas d’une variance σ2 connue, on déduit
du TCL un intervalle de confiance pour la moyenne m des Xn. En effet, la loi
limite n’ayant pas d’atome, nous avons
limN→+∞
PÅ√N(Sn −m)
σ∈ [−a, a]
ã= P
ÅG ∈ [−a, a]
ã6
où G ∼ N (0, 1). Or√N(Sn −m)
σ∈ [−a, a] ⇔ m ∈ [SN ±
aσ√N
] .
Nous en déduisons un intervalle de confiance asymptotique pourm de niveau 1−αde la forme
IN =ï 1
N
N∑n=1
Xn ±q
1−α2
N (0,1)σ√N
òoù q
1−α2
N (0,1) désigne le quantile de la loiN (0, 1) d’ordre 1− α2
. Dans les application,
il est d’usage de prendre α = 5% et dans ce cas q1−α
2
N (0,1) ≈ 1, 96.
Cas où la variance est inconnue. Dans ce cas il faut estimer aussi la variance par
méthode de Monte Carlo. Notons alors
σ2N =
1
N − 1
N∑n=1
(Xn − SN)2
Par la LFGN nous avons
σ2N
P−p.s.−−−−→N→+∞
σ2 .
Il nous faut alors le résultat additionnel suivant.
Lemme 1 (Slutsky). Soient Y , et Yn et Zn, n ≥ 1 des variables aléatoires telles
que
YNL−−−−→
N→+∞Y ,
ZNP−−−−→
N→+∞c .
où c est une constante réelle. Alors
ZNYNL−−−−→
N→+∞cY ,
ZN + YNL−−−−→
N→+∞c+ Y .
A l’aide de ce lemme, on peut appliquer le raisonnement précédent en rempla-
çant σ2 par σ2 et nous obtenons l’intervalle de confiance de niveau 1− α suivant
IN =ï 1
N
N∑n=1
Xn ±q1−αN (0,1)σN√
N
ò.
7
Intervalles de confiance à distance finie. Les intervalles asymptotiques issus
du TCL sont largement utilisé dans la méthodologie Monte Carlo et cela se jus-
tifie par l’utilisation d’un grand nombre d’itération (N ≥ 105). Il est cependant
également possible de construire des intervalles de confiance dont la probabilité
d’appartenance est contrôlée pour un nombre fixé d’itérations. Cela peut être fait
en utilisant par exemple les inégalités de Bienaymé-Tchebychev et de Chernov
par exemple.
Proposition 1 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléa-
toire réelle de carré intégrable. Alors
PÅ|X − E[X]| ≥ r
ã≤ V(X)
r2.
pour tout r > 0.
Ainsi nous avons
PÅ|SN −m| ≥ r
ã≤ V(SN)
r2=
σ2
Nr2
et
PÅm ∈ [SN − r, SN + r]
ã≥ 1− σ2
Nr2
pour tout r > 0. Ainsi pour avoir un intervalle de confiance de niveau 1 − α, il
nous faut prendre r = σ√N√α
. L’intervalle est alors beaucoup plus grand que celui
donné par le TCL.
Dans le cas d’une intégrabilité plus forte, ce résultat peut être nettement amé-
lioré à l’aide de l’inégalité de Chernov.
Proposition 2 (Inégalité de Chernov). Soit X une variable aléatoire de moyenne
0 et de loi µ. Supposons que X admet un moment exponentiel : il existe ρ > 0 tel
que E[eρ|X|] <∞. Alors
P(X > a) ≤ e−hX(a) ,
P(X < −a) ≤ e−hX(−a) ,
8
pour tout a ≥ 0, où hX est la transfomée de Cramer de la X définie par
hX(x) = supy≥0
yx− logE[eyX ] si x ≥ 0 ,
hX(x) = supy≤0−yx− logE[eyX ] si x ≤ 0 .
Démonstration. Nous commençons par démontrer la première inégalité. Nous
avons
EîeyX1X≥a
ó≤ E
îeyXó
pour tout y ≥ 0. En appliquant l’inégalité de Tchebychev nous obtenons
eyaP(X ≥ a) ≤ EîeyXó
ce qui nous donne
P(X ≥ a) ≤ e−Äay−logE[eyX ]
ä.
Cette inégalité étant vraie pour tout y ≥ 0, nous obtenons la première inégalité.
Pour la seconde inégalité, nous avons
ey(X+a) ≥ 1X<−a
pour tout y ≤ 0. En prenant l’espérance, nous obtenons
P(X < −a) ≤ Eîey(X+a)
ó= eyaelogEeyX = e−(−ya−logEeyX) .
y étant arbitraire, nous obtenons la seconde inégalité. 2
Notons m la moyenne des Xn : m = E[X1]. Supposons que les Xn − m
admettent un moment exponentiel. Il en est alors de même pour SN −m. En effet,
par indépendance et identique distributivité, nous avons
Eîeρ|SN−m|
ó= E
îeρN|XN−m|
óN ≤ Eîeρ|XN−m|
óN< +∞ .
Par ailleurs, la transformée de Cramer de SN −m est donnée par
hSN−m(a) = supy≥0
ya− logE[ea(SN−m)]
= supy≥0
ya−N logE[eyN
(X1−m)]
= NhX1−m(a)
9
pour a ≥ 0. Le même calcul nous donne hSN−m(a) = NhX1−m(a) pour a ≤ 0.
En appliquant l’inégalité de Chernov à SN −m nous obtenons donc la majoration
suivante :
P(m ∈ [SN − a, SN + a]) ≥ 1− e−NhX1−m(a) − e−NhX1−m(−a)
pour a ≥ 0. Dans le cas gaussien avec variance σ2 = 1, i.e. X1 −m ∼ N (0, 1),
nous obtenons hX1−m(x) = x2
2ce qui nous donne
P(m ∈ [SN − a, SN + a]) ≥ 1− 2e−Na2
2 .
Pour obtenir un intervalle de niveau 1− α il faut alors prendre a =√−2 log(α/2)
N.
Nous notons que cet intervalle de confiance est plus précis que celui obtenu à
l’aide de l’ingalité de Bienaymé-Chebytchev car»−2 log(α/2) = o
Å 1√α
ãquand α→ 0.
1.3 Exemples et exercices
Aiguille de Buffon. L’aiguille de Buffon est une expérience de probabilité pro-
posée en 1731 par Georges-Louis Leclerc de Buffon, un scientifique français du
XVIIIe siècle. Le but de cette expérience est de calculer la probabilité p qu’une
aiguille jetée au sol touche une rainure de parquet. sur Il s’agit de lancer un grand
nombre de fois une aiguille sur un parquet. Le parquet est composé de planches
parallèles de même largeur. On comptabilise le nombre de fois où l’aiguille tombe
à cheval sur une rainure du parquet (cas "favorable") par rapport au nombre total
de lancers. Au fur et à mesure que le nombre de lancers augmente, le quotient
se rapproche d’un certain nombre permettant de retrouver p en supposant que la
longueur de l’aiguille est inférieure ou égale à la largeur d’une planche du parquet.
Pour cela, notons
— l le réel positif correspondant à la largeur d’une latte de parquet ;
— a le réel positif correspondant à la longueur de l’aiguille ;
10
— θ le réel compris entre 0 et π/2 correspondant à l’angle géométrique formé
avec les rainures du parquet ;
— r le réel positif correspondant à la distance du centre de l’aiguille à la
rainure la plus proche.
En utilisant toutes les symétries du problème, on peut considérer que :
— θ suit une loi uniforme sur [0; π/2] ;
— r suit une loi uniforme sur [0; l/2].
Considérons n lancers de cette aiguille. On peut considérer alors que toutes les
positions différentes de l’aiguille mises bout à bout forment un polygone à n côtés.
Plus n est grand plus ce polygone se rapprochera d’un cercle. Le périmètre P de ce
cercle vaut alors P = n×a. Le diamètre de ce cercle vaudraD = P/π = n×a/π.
Le problème revient à savoir : combien de rainures parallèles sont coupées par le
polygone, ou encore combien y a-t-il de rainures à l’intérieur du cercle?
Le nombre d’intersections du cercle avec les rainures R est donné par R =
2D/l. Finalement la probabilité que l’aiguille coupe une rainure est donnée par
p = Rn
= 2× Dl
1n
= 2× naπ×l×n et en simplifiant p = 2a
π×l
Un exemple où ça se passe mal. On cherche à estimer E[eθG] où θ est une
constante positive et G ∼ N (0, 1).
1. Calculer E[eθG] pour tout θ ∈ R. En utilisant cette expression donner une
valeur approchée de E[eθG] pour θ = 5.
Dans le cas θ = 5 on a E[eθG] ≈ 2, 68×104 en utilisant la formule E[eθG] =
eθ2
2 .
2. Proposer un estimateur de Monte Carlo de la quantité E[eθG]. Implémenter
cet estimateur pour θ = 5 et N = 100 000. Faire cinq essais de simulation
de cet estimateur. Que se passe-t-il ? Calculer la variance de cet estimateur.
Que pout-on en déduire?
On procède à l’estimation par Monte-Carlo de cette quantité. Pour cela on
génère N = 100 000 simulation G1, . . . , G100 000 de la loi N (0, 1) et on
11
calcul 1N
∑100 000n=1 eθGn . On obtient alors les résultats suivants :
1er résultat : 1, 10× 104
2nd résultat : 1, 04× 104
3ième résultat : 2, 35× 104
4ième résultat : 7, 40× 103
5ième résultat : 5, 31× 104
On constate que les estimations donnent des résultats complètement diffé-
rents. Le problème ici est que la variance σ2 = E[e2θG]−E[eθG]2 est grande
relativement au nombre de simulation N . En fait cette variance peut être
calculé explicitement : σ2 = e2θ2 − eθ2 = eθ2(eθ
2 − 1) ≈ 5, 15× 1021.
3. Déterminer la taille de l’intervalle de confiance à 95% lorsqueN = 100 000.
D’après la section précédente, l’intervalle de confiance asymptotique à 95%
est donné par
I =ïE[eθG]−
q1−αN (0,1)σ√N
, E[eθG] +q1−αN (0,1)σ√N
ò.
La taille de l’intervalle est donc 2q95%N (0,1)
σ√N≈ 8, 92×108 (en utilisant q95%
N (0,1) ≈1, 96). On constate donc que la taille de l’intervalle est trop grande.
4. Quelle valeur de N doit-on prendre pour que l’erreur relative soit de 1 à
95%?
Toujours en utilisant la forme de l’intervalle de confiance, N doit vérifier
2q95%N (0,1)σ√N
≤ 1
soit
N ≥ 4σ2(q95%N (0,1))
2 ≈ 7, 97× 1022 .
12
Intégration numérique. On cherche à évaluer l’intégrale I :=∫ ∫
[0,1]2 xy sinÅ
1xy
ãdxdy.
1. Proposer une estimation Monte-Carlo de I utilisant la loi uniforme sur
[0, 1]2
Il suffit de prendre (Xn, Yn)n≥1 i.i.d. de loi uniforme sur [0, 1] et d’approcher
I par IN définie par
IN =1
N
N∑n=1
XnYn sinÅ 1
XnYn
ã2. On pose f(x, y) = xy sin
Å1xy
ã. Soient (X, Y, Z) uniformément réparties
sur [0, 1]3. On définit la variable aléatoire U = 1Z<f(X,Y ). Monter que
I = P(U = 1) .
En déduire une méthode d’estimation de type Monte Carlo de I . D’après la
définition de U on a
P(U = 1) = P(Z < f(X, Y ))
= E[P(Z < f(X, Y )|X, Y )]
= E[f(X, Y )] ,
où la dernière égalité vient de l’indépendance de X , Y et Z.
3. Comparer les deux méthodes précédentes.
Première méthode :
10 000 simulations, résultat : 3, 83× 10−1
50 000 simulations, résultat : 1, 22× 102
100 000 simulations, résultat : 7, 09× 101
500 000 simulations, résultat : 2, 70× 101
Seconde méthode :
13
10 000 simulations, résultat : 5, 51× 10−1
50 000 simulations, résultat : 5, 53× 10−1
100 000 simulations, résultat : 5, 52× 10−1
500 000 simulations, résultat : 5, 50× 10−1
On constate donc que la seconde méthode est plus robuste.
14
Chapitre 2
Simulation de variables aléatoires
2.1 Loi uniforme
Nous commençons par la loi uniforme car nous l’utiliserons ensuite pour si-
muler les autres lois.
En pratique un ordinateur ne sait engendrer que des suites de nombres déter-
ministes : il est incapable de générer une suite "réellement" aléatoire. Par contre,
il est possible de construire des suites de nombres qui se comportent (statistique-
ment) comme des suites aléatoires.
Les suites les plus courantes produites par les ordinateurs sont calculées à
partir d’un nombre M d’entiers 0, . . . ,M − 1. En divisant par M , on obtient
ainsi une suite sur [0, 1[. Elles sont construites sur la base de récurrences de la
forme
un+1 = g(un) , n ∈ N
où g est une fonction de 0, . . . ,M − 1 dans lui-même et u0, appelé graine, est à
initialiser dans 0, . . . ,M − 1. On pose alors
xn =unM∈ [0, 1[ , n ∈ N.
L’exemple le plus simple est celui de la congruence mixte :
g(u) = (Au+ C) mod M
15
où A et C sont des réels positifs à choisir (dans le cas C = 0, on parle de
congruence multiplicative).
Une fois que nous pouvons simuler la loi U[0,1], il est possible de simuler la loi
U[a,b] pour a ≤ b en utilisant le fait que si Y ∼ U[0,1] alors a+ (b− a)Y ∼ U[a,b].
2.2 Méthode d’inversion
La méthode d’inversion (de la fonction de répartition) est basée sur le résultat
suivant.
Proposition 3. Soit Y une variable aléatoire réelle à valeurs dans R de fonction
de répartition FY . On pose
F−1Y (u) : = infy ∈ R : FY (y) ≥ u u ∈ [0, 1].
Notons dom(F−1Y ) = y ∈ R : F−1
Y (y) 6= ±∞. Si U ∼ Udom(F−1Y ) alors F−1
Y (U)
et Y ont la même loi.
Démonstration. Par définition de F−1Y nous avons
P[F−1Y (U) ≤ y] = P[U ≤ FY (y)] = FY (y)
pour tout y ∈ R. 2
Notons que ce résultat permet de simuler également des variable aléatoires à
support discret. Si Y a pour loi P[Y = yk] = pk, k ∈ N, alors si U ∼ U[0,1]
Y := y01U≤p0 +∑i≥1
yi1∑i−1j=0
pj<U≤∑i
j=0pj
a même loi que Y . Pour simuler Y , on simule donc U ∼ U[0,1] et on utilise la
boucle
p = p0; j = 0;
Tant que (p < U)
Faire j = j + 1; p = p + pj
Fin Tant que
Y = yj;
16
Notons que cela peut être très coûteux si la loi de Y est très dispersée. Nous
présentons deux exemples dans la suite.
Le premier concerne la loi exponentielle. Supposons que Y ∼ E(λ) avec λ >
0. Alors
FY (y) = 1− e−λy , y ∈ R.
Nous obtenons donc F−1Y (u) = − 1
λlog(1− u). Ainsi si U ∼ U(0,1) et en utilisant
le fait que 1 − U ∼ U(0,1), nous obtenons que Y = − 1λ
log(U) suit la même loi
que Y .
Le second exemple concerne la loi de Bernoulli. Supposons que Y ∼ B(p)
avec p ∈]0, 1[. Si U ∼ U(0,1) alors Y a même loi que 1U≤p. Avec ce procédé,
on peut également simuler une loi binomiale de paramètre (n, p) en utilisant la
variable aléatoire∑ni=1 1Ui≤p où U1, . . . , Un sont i.i.d. de loi U(0,1).
2.3 Méthode du rejet
a-Loi conditionnelle et loi uniforme sur un domaine
Proposition 4. Soit (Zn)n≥1 une suite de v.a. i.i.d. à valeurs dans Rd et soit D ⊂Rd tel que P[Z1 ∈ D] > 0. On pose
ν1 := infk ≥ 1 : Zk ∈ D
νn+1 := infk > νn : Zk ∈ D
Yn := Zνn pour n ≥ 1.
Alors, (Yn)n≥1 est une suite de v.a. i.i.d. de loi ρ donnée par
ρ(A) = P[Z1 ∈ A|Z1 ∈ D]
pour A borélien de Rd.
Démonstration. Par récurrence. 2
Cette proposition nous permet alors de construire des variables aléatoires de
loi uniforme sur un ensemble donné.
17
Corollaire 1. En reprenant les notations de la Proposition 4 et en supposant que
les Zn suivent la loi uniforme surd∏i=1
[ai, bi] alors les Yn suivent la loi uniforme sur
D.
Démonstration. Calculer la densité. 2
b-Lois à densité La méthode de rejet peut également être utilisée lorsqu’on
connaît la densité de Y .
Proposition 5. Soit f une densité sur Rd, (Zn)n≥1 une suite de variables aléa-
toires indépendantes de densité g sur Rd, et soit (Un)n≥1 une suite de variables
aléatoires indépendantes suivant une loi uniforme sur [0, 1], indépendantes de la
suite (Zn)n≥1. On pose
ν1 := infk ≥ 1 : f(Zk) > aUkg(Zk)
νn+1 := infk > νn : f(Zk) > aUkg(Zk)
Yn := Zνn pour n ≥ 1,
où a est un réel fixé vérifiant f(z) ≤ ag(z) pour tout z ∈ Rd. Alors, la suite
(Yn)n≥1 est une suite de variables aléatoires indépendantes de même densité f .
Démonstration. Utiliser la Proposition 4. 2
2.4 Méthode par transformation
Cette méthode consiste à écrire une v.a. Y comme une fonction g d’une autre
v.a.X qu’il est possible de simuler facilement. Elle repose sur la formule de chan-
gement de variables suivante.
Théorème 3 (Formule de changement de variables). Soit φ un difféomorphisme
d’un ouvert D ⊂ Rd sur un ouvert ∆ ⊂ Rd, et soit g une fonction borélienne
bornée de ∆ dans R, alors∫∆g(v)dv =
∫Dg(φ(u))|det(∇(φ)(u))|du .
18
Une conséquence directe est le résultat suivant.
Corollaire 2. Soit X un vecteur aléatoire de densité f sur Rd. On suppose que
X ∈ D p.s. où D est un ouvert de Rd. Soit ψ un difféomorphisme de D sur un
ouvert ∆. Alors Y := ψ(X) a pour densité
f(ψ−1(·))∣∣∣det(∇(ψ−1)(·))
∣∣∣1∆(·).
a. Cas Gaussien. La méthode par transformation permet de simuler les variables
aléatoires gaussiennes. Nous commençons par les guassiennes standards pour les-
quelles nous proposons deux méthodes.
Proposition 6 (Box-Müller). Soit (U, V ) ∼ U]0,1[2 et
X :=»−2 log(U) cos(2πV ), Y :=
»−2log(U) sin(2πV ).
Alors (X, Y ) ∼ N (0, I2).
Proposition 7 (Algorithme polaire). Soit (U, V ) uniformément distribuée sur (u, v) ∈R2 : 0 < u2 + v2 < 1. Posons R2 := U2 + V 2 et
X := U»−2 log(R2)/R2, Y := V
»−2 log(R2)/R2.
Alors (X, Y ) ∼ N (0, I2).
Les deux méthodes précédentes permettent donc de simuler la loi N (0, Id)
puisque Y = (Y1, . . . , Yd) ∼ N (0, Id) si et seulement si (Yi)di=1 est une suite de
variables aléatoires indépendantes de même loi N (0, 1).
Etant donné une matrice définie positive Γ ∈ Rd×d et un vecteur µ de Rd, on
simule également facilement un vecteur de loi N(µ,Γ) en utilisant la procédure
de factorisation de Cholesky.
Proposition 8. Soit µ un vecteur de Rd et Γ une matrice de Rd×d définie positive.
(1) Il existe A ∈ Rd×d telle que AA∗ = Γ.
(2) Si Y ∼ N (0, Id), alors X = µ+ AY ∼ N (µ,Γ).
Pour simuler un vecteur gaussien de loi N (µ,Γ) on procède donc ainsi. On
commence par calculer la matrice A en utilisant l’algorithme de décomposition
de Cholesky. On simule ensuite un vecteur Y ∼ N (0, Id) en utilisant la formule
de Box-Müller ou l’algorithme polaire, puis, on calcule µ+ AY .
19
b. Loi et processus de Poisson Si (Tk)k≥1 est une suite i.i.d. de loi exponentielle
E(λ), λ > 0, alors
Y :=∞∑n=1
n1∑nk=1
Tk≤1≤∑n+1
k=1Tk
suit une loi de Poisson P(λ) :
P [Y = k] =λk
k!e−λ, k ≥ 0.
En utilisant la méthode par transformation, on en déduit que si (Uk)k≥1 est une
suite de v.a. i.i.d. de loi U[0,1] alors la suite (− 1λ
log(Uk))k≥1 est une suite de v.a.
i.i.d. de loi E(λ). Par conséquent
Y :=∞∑n=1
n1∑nk=1− 1λ
log(Uk)≤1<∑n+1
k=1− 1λ
log(Uk)
=∞∑n=1
n1∏n+1k=1
Uk<e−λ≤∏nk=1
Uk
suit la loi de Poisson P(λ). De manière plus générale cette méthode permet de
simuler le processus de Poisson (Nt)t≥0 de paramètre λ en posant
Nt =∞∑n=1
n1∏n+1k=1
Uk<e−λt≤∏nk=1
Uk, t ≥ 0 .
En particulier Nt ∼ P(λt) pour t ≥ 0.
2.5 Variables corrélées et conditionnement
Variables corrélées. Considérons un couple de v.a. (X, Y ) admettant une den-
sité f . On peut réécrire cette densité sous la forme
f(x, y) = fX(x)f(y|X = x)
où fX est la densité de X et f(·|X = x) est la densité de Y sachant X = x.
Pour simuler (X, Y ), on commence donc par simuler X selon la densité fX puis
on simule Y (indépendamment) selon la loi f(·|X = x) où x est la valeur prise
par la simulation de X . Notons que lorsque X et Y sont indépendantes, on a
simplement f(·|X = x) = fY et cela revient a simuler X et Y indépendamment,
chacune selon sa loi marginale.
20
Techniques par conditionnement.1er cas. On suppose que la loi de Y s’écrit
fY (y) =∑i≥0
pifi(y),
où les fi sont des densités et les pi sont positifs (et donc ont une somme égale à
1 car fY est aussi une densité). On peut voir fY comme la densité marginale du
couple (X, Y ) où X a pour loi P(X = i) = pi et Y a pour loi fi conditionnelle-
ment à X = i. On peut donc procéder comme ci-dessus. Cela n’a évidemment
d’intérêt que si l’on sait simuler les fi.
Par exemple, si Y a pour densité
fY (y) = αfσ(y) + (1− α)fγ(y) , y ∈ R ,
où α ∈]0, 1[ et fσ (resp. fγ) est la densité de la loi N (0, σ2) (resp. N (0, γ2)), on
commence par tirer une loi uniforme U sur [0, 1]. Si U ≤ α, on tire ensuite Y
selon la loi N (0, σ2). Si U > α, on tire Y selon la loi N (0, γ2). Ceci revient à
poser p1 = α, p0 = 1− α, f1 = fσ et f0 = fγ . X suit alors une loi de Bernouilli
de paramètre α, i.e. P(X = 1) = α. On parle de mélange de gaussiennes.
2ème cas. On peut écrire la loi de Y sous la forme
fY (y) =∫g(y, x)dx,
où g est une fonction positive. Là encore, g est la densité d’un couple (X, Y ) où
Y a pour loi marginale fY . On peut donc commencer par simuler X selon sa loi
marginale fX(x) =∫g(y, x)dy puis on simule Y selon g(·,x)
fX(x)où x est la valeur
prise par la simulation de X .
2.6 Exercices
Simulation de la loi binomialeOn cherche à simuler une variable aléatoire X suivant une loi Binomiale de para-
mètres n ≥ 1 et p ∈]0, 1[.
21
1. En utilisant le fait que X peut s’écrire comme la somme de n variables
aléatoires Y1, . . . , Yn i.i.d. de loi de Bernoulli de paramètre p, simuler X à
partir de lois uniformes.
En utilisant le fait queX = Y1+· · ·+Yn, il suffit alors de simuler n variables
aléatoires de loi uniforme U1, . . . , Un. Les valeurs de Y1, . . . , Yn sont alors
données par
Yi = 1Ui≤p , 1 ≤ i ≤ n .
La valeur simulée de X est alors donnée par
X = 1U1≤p + · · ·+ 1Un≤p .
2. Donner la fonction de répartition de X et calculer son inverse généralisé.
En déduire une méthode de simulation de X .
La fonction de répartition de X est donnée par
FX(x) = P(X ≤ x) =n∑k=1
P(X = k)1[k,k+1[(x)
=n∑k=1
Cknp
k(1− p)n−k1[k,k+1[(x) , x ∈ R .
On en déduit son inverse généralisé :
F−1X (u) = infx ∈ R : FX(x) ≥ u
=n∑k=1
k1∑ki=1
pi≤u<∑k+1
i=1pi
avec pi := Cinp
i(1 − p)n−i pour 1 ≤ i ≤ n. On peut alors simuler X en
simulant une variable aléatoire U suivant une loi U[0,1] et en calculant la
valeur F−1X (U).
3. Tester les deux méthodes pour différentes valeurs de n, disons 5, 20, 100 et
1000, et comparer les temps de simulation.
On constate théoriquement que la première méthode demande plus de si-
mulation que la seconde.
22
Pour la première méthode X peut être simulée à l’aide du code R suivant :
X=0
U<-runif(n)
for (k in 1:n)if (U[k]<=p) X=X+1
On utilise ensuite la commande Sys.time() pour obtenir le temps de
calcul : T1<-Sys.time()
X=0
U<-runif(n)
for (k in 1:n)if (U[k]<=p) X=X+1
T2<-Sys.time()
Tdiff=T2-T1
Pour la seconde méthode, l’inverse de la fonction de répartition peut être
implémentée en langage R à l’aide du code suivant.
invcdf<-function(u,n,p)
c=0
sp=0
for (k in 1:n)if (u>=sp+choose(n,k)*pˆk*(1-p)ˆ(n-k))
c=c+1; sp=sp+choose(n,k)*pˆk*(1-p)ˆ(n-k)
return(c)
La simulation de la variable X est alors donnée par le code R suivant
U=runif(1)
X=invcdf(U,n,p)
On utilise ensuite la fonction Sys.time() pour obtenir le temps de cal-
cul :
23
T1<-Sys.time()
U=runif(1)
X=invcdf(U,n,p)
T2<-Sys.time()
Tdiff=T2-T1
On obtient alors les résultats suivants
n p temps 1ère méthode (sec) temps 2ème méthode (sec)
5 0,1 1, 27× 10−2 1, 12× 10−2
20 0,1 1, 61× 10−2 2, 10× 10−2
100 0,1 1, 16× 10−2 1, 85× 10−2
1000 0,1 2, 54× 10−2 2, 30× 10−2
5 0,5 1, 16× 10−2 6, 11× 10−3
20 0,5 1, 15× 10−2 1, 87× 10−2
100 0,5 2, 14× 10−2 2, 23× 10−2
1000 0,5 2, 09× 10−2 2, 19× 10−2
5 0,9 1, 18× 10−2 7, 36× 10−3
20 0,9 1, 18× 10−2 1, 86× 10−2
100 0,9 2, 82× 10−2 1, 65× 10−2
1000 0,9 1, 29× 10−2 1, 91× 10−2
On constate que les deux méthodes donnent des temps de calcul comparables.
Loi gamma
1. Montrer que si X1 et X2 sont deux variables aléatoires indépendantes de
lois respectives γ(α1) et γ(α2) (avec α1, α2 > 0) alors X1 +X2 suit une loi
γ(α1 + α2).
La loi γ(α) est la loi de densité fγ(α) donnée par
fγ(α)(x) = 1x>0xα−1
Γ(a)e−x , x ∈ R .
24
La densité de X1 +X2 est alors donnée par
fX1+X2(z) =∫RfX1(z − y)fX2(y)dy
=1
Γ(α1)Γ(α2)e−z1z>0
∫ ∞0
(z − y)α1−1yα2−1dy
=1
Γ(α1)Γ(α2)e−z1z>0z
α1+α2−1∫ ∞
0(1− y
z)α1−1
Åyz
ãα2−1dy
z
=1
Γ(α1)Γ(α2)e−z1z>0z
α1+α2−1∫ ∞
0(1− x)α1−1xα2−1dx
cette fonction étant une densité nous obtenons
fX1+X2(z) =1
Γ(α1 + α2)e−z1z>0z
α1+α2−1
ce qui est la densité de la loi γ(α1 + α2).
2. Rappeler quelle est la loi γ(1) et comment la simuler. En déduire la simula-
tion d’une loi γ(α) avec α ∈ N∗ (appelée aussi loi d’Erlang).
Pour α = 1, la loi γ(1) est la loi exponentielle E(1). On peut simuler cette
loi par inversion puisque on connait sa fonction de répartition qui est donnée
par
FE(1)(x) = 1x>0(1− e−x) , x ∈ R .
Son inverse est alors donné par
F−1E(1)(u) = − ln(1− u) , u ∈]0, 1] .
Pour simuler la loi γ(1) il suffit donc de simuler U ∼ U[0,1] et de calculer
F−1E(1)(U).
Pour simuler γ(α) avec α ∈ N∗, il suffit de simuler α variables aléatoires
U1, . . . , Uα i.i.d. de loi U[0,1] et de calculer F−1E(1)(U1) + · · ·+ F−1
E(1)(Uα).
3. En utilisant la méthode de rejet proposer une méthode pour simuler une loi
γ(α) avec α ∈]0, 1[. En déduire alors un algorithme permettant de simuler
une loi γ(α) pour tout α > 0 et tester cet algorithme (indication : écrire α
comme somme de sa partie entière et de sa partie décimale).
25
On peut utiliser la Proposition 5 avec f la densité de la loi γ(α) et g la
densité définie par
g(x) =1
a
Åe−x +
1
αxα−11]0,1[(x)
ã, x ∈ R ,
avec a = 2. Nous avons alors f ≤ ag et on peut appliquer le résultat
de la Proposition 5. Pour simuler une variable aléatoire Z de densité g, il
suffit de simuler des variables aléatoires Y ∼ E(1), W de densité x 7→1αxα−11]0,1[(x) et B ∼ B(1
2) mutuellement indépendantes et de calculer
Z = BY + (1−B)W
Enfin pour simuler γ(α), on simule γ(α − Ent[α]) et γ(Ent[α]) indépen-
damment.
26
Chapitre 3
Méthodes de réduction de variance
3.1 Variables de contrôle
Etant donnée une variable aléatoire X , on cherche à calculer E[X] par simu-
lation Monte Carlo. Il s’agit donc d’obtenir des simulations les moins dispersées
possible. On cherche alors une variable aléatoire Y telle que
— E[Y ] est explicite ou facile à calculer,
— V(X + Y ) est ‘très petite’ devant V(X).
Dans ce cas on peut calculer E[X] = E[X + Y ]− E[Y ] en estimant E[X + Y ] et
en calculant E[Y ]. Cette méthode d’approximation est alors plus rapide que celle
qui consiste à estimer directement E[X] du fait que V(X + Y ) est petite devant
V(X) et que les estimations par Monte Carlo convergent à une vitesse qui dépend
de la variance. La variable Y est alors appelée variable de contrôle.
Exemple 1. On cherche à calculer l’intégrale I :=∫ 10 e
xdx. Notons que cette
intégrale peut être réécrite sous la forme I = E[eU ], où U ∼ U[0,1]. En utilisant
l’approximation ex ≈ 1 + x valable au voisinage de 0, on propose alors comme
variable de contrôle Y = 1 + U , la variable X étant donné par X = eU . L’es-
pérance de Y est explicite : E[Y ] = E[1 + U ] = 32. Nous calculons alors les
27
variances.
V(X) =1
2(e2 − 1)− (e− 1)2 ≈ 0, 242
V(X + Y ) =1
2e2 − 2e+
11
6− (e− 5
2)2 ≈ 0, 0436
On réduit donc la variance d’un facteur 5, ce qui nous dit que Y est une bonne
variable de contrôle. En pratique, on estime I en utilisant
I =3
2+ lim
N→+∞
1
N
∑N→+∞
1
N
N∑n=1
(eUk − 1− Uk) .
Exemple 2 (Variable de Kemna et Vorst pour options asiatiques). On cherche à
estimer le prix P (x) d’une option d’achat asiatique de prix d’exercice K dans le
modèle de Black & Scholes. En supposant le taux d’intérêt constant égal à r, ce
prix prend la forme
P (x) = EïϕÅ 1
T
∫ T
0(xe(r−σ2/2)t+σWtdt
ãòavec ϕ : u 7→ (u−K)+. On propose alors d’utiliser comme variable de contrôle
Y = xe( 1T
∫ T0
((r−σ2/2)t+σWt)dt .
Notons que par l’inégalité de Jensen, nous avons E[X] ≥ E[Y ]. Par ailleurs, le
calcul de E[Y ] peut être fait explicitement. En effet,∫ T
0Wtdt = TWT −
∫ T
0tdWt =
∫ T
0(T − t)dWt ∼ N
Å0,∫ T
0s2ds
äEn utilisant la formule de Black & Scholes, on peut alors calculer E[Y ]. Numé-
riquement on constate que cette variable de contrôle fonctionne bien pour r et σ
petits.
3.2 Variables antithétiques
L’idée du contrôle antithétique est la suivante. Considérons une variable aléa-
toire U ∼ U[0,1] et cherchons à calculer I = E[f(U)]. Puisque 1−U ∼ U[0,1] nous
avons
I =1
2
ÄE[f(U)] + E[f(1− U)]
ä.
28
On peut alors approcher I par
I2N :=1
N
Å1
2
Äf(U1) + f(1− U1)
ä+ · · ·+ 1
2
Äf(UN) + f(1− UN)
äã=
1
2N
Åf(U1) + f(1− U1) + · · ·+ f(UN) + f(1− UN)
ã.
Comparons les variances :
V(I2N) =1
(2N)2× 2N × V(U1) =
1
2NV(U1)
V(I2N) =1
(2N)2×N × V(f(U1) + f(1− U1))
=1
2N
ÄV(U1) + Cov(f(U1), f(1− U1))
äOn en déduit que si f(U1) et f(1− U1) sont négativement corrélées, i.e.
Cov(f(U1), f(1− U1)) ≤ 0 ,
il est préférable d’utiliser I2N .
Nous nous intéressons maintenant aux conditions portant sur f sous lesquelles
la corrélation est négative. Pour cela nous avons besoin du résultat intermédiaire
suivant.
Lemme 2. SoitX une variable aléatoire réelle et f et g deux fonctions croissantes
(respectivement décroissantes). Alors
E[f(X)g(X)] ≥ E[f(X)]E[g(X)]
i.e. Cov(f(X), g(X)) ≥ 0 .
De plus cette inégalité est stricte si f et g sont strictement monotones sur un même
ensemble de mesure non nulle pour PX .
Démonstration. Soit Y une variable aléatoire indépendante deX et de même loi.
Puisque f et g sont croissantes, nous avons
(f(X)− f(Y ))(g(X)− g(Y )) ≥ 0
29
ce qui donne en prenant l’espérance
E[f(X)g(X)] + E[f(Y )g(Y )] ≥ E[f(X)g(Y )] + E[f(Y )g(X)] .
En utilisant l’indépendance de X et Y et leur égalité en loi nous obtenons le
résultat. 2
Proposition 9. Si f est monotone, alors Cov(f(U1), f(1 − U1)) ≤ 0 . De plus
cette inégalité est stricte si f est strictement monotone sur un sous ensemble de
[0, 1] de mesure de Lebesgue non nulle.
Démonstration. Il suffit d’appliquer le lemme précédent avec f(u) = −f(u) et
g(u) = f(1− u). 2
Cas du modèle de Black & Scholes. Dans le cas du modèle de Black & Scholes,
il et naturel d’utiliser la propriété de symétrie du mouvement brownien :W et−Wont même loi i.e. φ(x) = −x. On en déduit que XT := exp(r − σ2/2)T − σWT )
a même loi que X−T := exp(r − σ2/2)T + σWT ).
Le résultat suivante valide alors X−T comme variable antithétique.
Proposition 10. Si f est monotone et σ > 0, alors
Cov(f(XT ), f(X−T )) ≤ 0
avec inégalité stricte si f est strictement monotone sur un domaine de mesure non
nulle.
Démonstration. Notons g la densité de la loi normale centrée de variance T ,
m = E[f(XT )] et f(WT ) = f(XT ). Sans perte de généralité, on peut supposer
que f est croissante. Posons
c := infy ∈ R : f(y) ≥ m .
On a alors∫(f(w)−m)(f(−w)−m)g(w)dw =
∫(f(w)−m)(f(−w)− f(−c))g(w)dw
+(f(−c)−m)∫
(f(w)−m)g(w)dw .
30
Par définition de m, on a∫
(g(w) − m)f(w)dw = 0. La monotonie de f nous
donne
(f(w)−m)(f(−w)− f(−c)) ≤ 0,
avec inégalité stricte sur un domaine de mesure non nulle f est strictement mono-
tone sur un domaine de mesure non nulle. 2
Cas de la dimension d > 1. La méthode du contrôle antithétique se généralise
au cas de la dimension supérieure à 1 de la manière suivante. On se donne une
fonction borélienne bornée f : Rd → R et Y1, . . . , Yd des variables aléatoires
indépendantes et on cherche à estimer E[f(Y1, . . . , Yd)].
Nous commençons par généraliser le Lemme 2 à la dimension d
Lemme 3. Soient g et h deux fonctions boréliennes bornées de Rd dans R. Suppo-
sons que f et g sont croissantes (resp. décroissantes) composante par composante.
Alors
E[g(X1, . . . , Xd)h(X1, . . . , Xd)] ≥ E[g(X1, . . . , Xd)]E[h(X1, . . . , Xd)]
i.e. Cov(g(X1, . . . , Xd), h(X1, . . . , Xd)) ≥ 0 .
Démonstration. Nous montrons le résultat par récurrence sur d. Pour d = 1 le
résultat nous est donnée par le Lemme 2. Supposons le résultat vrai pour d et
mpontrons le au rang d+ 1. Définissions les fonctions G et H de R dans R par
G(x) = E[g(X1, . . . , Xd, x)]
H(x) = E[h(X1, . . . , Xd, x)]
K(x) = E[g(X1, . . . , Xd, x)h(X1, . . . , Xd, x)]
pour x ∈ R. Par hypothèse de récurrence nous avons
K(x) ≥ G(x)H(x)
pour tout x ∈ Rd. Par indépendance des variables aléatoires Xi, nous avons
G(Xd+1) = E[g(X1, . . . , Xd, Xd+1)|Xd+1] ,
H(Xd+1) = E[h(X1, . . . , Xd, Xd+1)|Xd+1] .
31
Comme les fonction G et H sont croissantes (resp. décroissantes), nous en dédui-
sons que
E[K(Xd+1)] ≥ E[G(Xd+1)H(Xd+1)]
≥ E[G(Xd+1)]E[H(Xd+1)]
ce qui par définition de K, G et H nous donne le résultat pour d+ 1.
Le résultat suivant concerne les lois symétriques.
Proposition 11. Supposons que f est croissante (resp. décroissante) composante
par composante et que la loi des Yi est symétrique. Alors
VÅf(Y1, . . . , Yd) + f(−Y1, . . . ,−Yd)
2
ã≤ V
Åf(Y1, . . . , Yd)
ã.
Démonstration. Il suffit d’appliquer le Lemme 3 avec g(x1, . . . , xd) = f(x1, . . . , xd)
et h(x1, . . . , xd) = −f(−x1, . . . ,−xd) pour (x1, . . . , xd) ∈ Rd.
Pour le cas des lois uniformes nous avons le résultat suivant.
Proposition 12. Supposons que f est croissante (resp. décroissante) composante
par composante et que la loi des Yi est U[0,1]. Alors
VÅf(Y1, . . . , Yd) + f(1− Y1, . . . , 1− Yd)
2
ã≤ V
Åf(Y1, . . . , Yd)
ã.
Démonstration. Il suffit d’appliquer le Lemme 3 avec g(x1, . . . , xd) = f(x1, . . . , xd)
et h(x1, . . . , xd) = −f(1− x1, . . . , 1− xd) pour (x1, . . . , xd) ∈ Rd.
3.3 Stratification
Cette méthode est classique en théorie des sondages. On considère une va-
riable aléatoireX à valeurs dans Rd et on cherche à estimer E[f(X)] où f : Rd →R est une fonction mesurable bornée.
On découpe alors Rd en une partition (mesurable) Rd =⋃mi=1Ei . Les en-
sembles Ei sont alors appelés strates. L’espérance que l’on cherche à calculer
32
peut alors s’écrire
Eîf(X)
ó=
m∑i=1
E[f(X)1X∈Ei ]
=m∑i=1
E[f(X)|X ∈ Ei]P(X ∈ Ei) .
On suppose alors que les pi := P(X ∈ Ei) sont facilement calculables. On peut
ensuite simuler la loi conditionnelle de X sachant X ∈ Ei en utilisant par
exemple la méthode de rejet. On estime alors Eîf(X)
ópar
IN =m∑i=1
I iNipi
où
I iNi =1
Ni
Ni∑n=1
f(X ik) , 1 ≤ i ≤ m ,
N1, . . . , Nm étant des entiers tels que
N1 + · · ·+Nm = N
et (X ik)
1≤i≤mk≥1 une famille de variables aléatoires indépendantes telle que X i
k ∼L(X|X ∈ Ei). Pour mesurer la qualité de cette méthode, nous calculons la va-
riance de l’estimateur IN . Par indépendance, nous avons
V(IN) =m∑i=1
V(I iNi)p2i
et
V(I iNi) =1
Ni
V(X ik) .
En notant σ2i = V(X|X ∈ Ei), nous avons
V(IN) =m∑i=1
p2i
Ni
σ2i .
Pour comparer avec la variance V(IN) il faut choisir les N1, . . . , Nm = N . Nous
les choisissons donc de manière à minimiser∑mi=1
p2iNiσ2i sous la contrainte N1 +
· · ·+Nm. Nous obtenons
Ni = Npiσi∑m
i=1 pi σi, 1 ≤ i ≤ m .
33
Dans ce cas la variance optimale est alors donnée par
V(IoptN ) =1
N
Å m∑i=1
piσi
ã2
.
On compare cette variance à celle de IN .
V(f(X)) = E[f 2(X)]− E[f(X)]2
=m∑i=1
E[f 2(X)|X ∈ Ei]pi −Å m∑i=1
E[f(X)|X ∈ Ei]piã2
=m∑i=1
Äσ2i + E[f(X)|X ∈ Ei]2
äpi −
Å m∑i=1
E[f(X)|X ∈ Ei]piã2
≥m∑i=1
piσ2i ≥
Ä m∑i=1
piσiä2
.
Le dernière inégalité résultant de la convexité de x 7→ x2. En théorie, cet estima-
teur est donc meilleur dans tous les cas. Il reste cependant deux problèmes :
— calculer les pi,
— simuler la loi de X sachant X ∈ Ei.
Exemple 3. Soit X à valeurs dans R de fonction de répartition F supposée stric-
tement croissante. Fixons des réels p1, . . . , pm de [0, 1] tels que p1 + · · ·+pm = 1.
On définit a0 = −∞, a1 = F−1(p1), a2 = F (p1 + p2), . . . , am = F (1) et
E1 =]a0; a1], . . . , Em =]am−1, am[. Par construction, nous avons P(Xi ∈ Ei) =
F−1(ai) − F−1(ai−1) = pi. Il faut alors simuler une variable aléatoire Y ayant
la loi L(X|X ∈ Ei). Notons alors que nous avons
— P(Y ≤ x) = 1 si x ≥ ai,
— P(Y ≤ x) = 0 si x ≤ ai−1,
— P(Y ≤ x) = P(X∈]ai−1,x])P(X∈Ei) = F (x)−F (ai−1)
F (ai)−F (ai−1)si x ∈ Ei.
On eut ré-écrire cette fonction de répartition sous la forme
P(Y ≤ x) =F (x ∧ ai)− F (x ∧ ai−1)
F (ai)− F (ai−1), x ∈ R .
On peut alors simuler Y suivant cette fonction de répartition.
34
3.4 Fonction d’importance
Le but de cette méthode est de changer de mesure de probabilité ambiante pour
en trouver une qui favorise l’apparition de réalisations qui ont un impact positif
sur l’estimateur i.e. qui permettent de réduire sa variance.
On cherche à calculer E[g(X)] où X est une variable aléatoire admettant pour
densité f . Il s’agit alors de trouver une variable aléatoire auxiliaire Y de densité
f et une fonction g telle que
E[g(X)] = E[g(Y )]
et
V(g(Y )) ≤ V(g(X)) .
Notons que lorsque f est strictement positive et donnée, nous avons
E[g(X)] =∫g(x)f(x)
f(x)f(x)dx = E[g(Y )] .
Un choix naturel pour g est donc
g(x) =g(x)f(x)
f(x), x ∈ R .
Le changement de mesure consiste alors à trouver une mesure de probabilité Ptelle que X ait pour densité f sous P. Nous pouvons alors écrire
E[f(X)] = Eïf(X)g(X)
f(X)
òoù E désigne l’espérance sous P.
Il se pose alors la question de savoir comment changer la loi. Le but est de
minimiser V(g(Y )). L’espérance E[g(Y )] étant fixée, cela revient à minimiser
E[g2(Y )] =∫g2(x)f 2(x)
f(x)dx .
En supposant que f est strictement positive, posons f(x) = Cg(x)f(x) avec
C = 1∫g(x)f(x)dx
, nous obtenons alors V(g(Y )) = 0. Cette loi paraît optimale mais
35
n’est pas utilisable en pratique car elle nécessite de connaître la quantité qu’on
cherche à calculer E[g(Y )] = E[g(X)]. Il est alors possible de faire une première
approximation grossière de l’espérance et d’utiliser la loi où la constance C est
remplacée par cette approximation.
De manière similaire, on peut aussi choisir f proche d’un multiple de fg.
Exemple 4. (i) Considérons U ∼ U[0,1] et cherchons à calculer E[cos(π2U)].
Notons que
cos(π
2u)1[0,1](u) ≈ C(1− u2)1[0,1].
On choisit alors f(u) = 32(1− u2)1[0,1](u). On peut alors simuler suivant f
en inversant la fonction de répartition qui donnée par
F (u) =3
2(u− u3
3)1[0,1](u) + 1]1,+∞](u)
(ii) On cherche à estimer P = E[(1 − eσG)+] où G ∼ N (0, 1). On utilise alors
l’approximation
ex − 1 ∼ x quand x→ 0 .
la justification vient du fait que σ est en général petit dans les modèles fi-
nanciers. On écrit alors P sous la forme
P =∫R
(1− eσx)+
σ|x|σ|x|e
−x22
dx√2π
En faisant le changement de variable y = x2, on obtient
P =∫ +∞
0
(1− eσ√y)+ + (1− e−σ
√y)+
2√y
e−y2dy√2π
= Eï(1− eσ√Y )+√
2π√Y
òoù Y ∼ E(1
2).
(iii) En fiabilité, on est souvent amené à calculer P(f(G) ≥ K) qui est en gé-
néral une quantité petite (de l’ordre de 10−6). Toujours en supposant que
G ∼ N (0, 1) on a pour tout m
E[h(G)] = E[h(G+m)]
36
où h(y) = h(y)em2
2−my pour toute fonction h mesurable bornée, ce qui nous
donne
P(f(G) ≥ K) = Eî1f(G+m)≥Ke
−mG−m2
2
ó.
On choisit alors m de façon à minimiser le moment d’ordre 2 donné par
Eî1f(G+m)≥Ke
−2mG−m2ó= E
î1f(G)≥Ke
−mG+m2
2
ó.
Changement de mesure exponentiel. Soit X de fonction de répartition F et ψ
sa log-transformée de Laplace :
ψ(θ) = logE[eθX ] , θ ∈ R .
Posons Θ := θ ∈ R : ψ(θ) < +∞ que nous supposons non vide et considé-
rons la fonction de répartition Fθ définie par
Fθ(x) =∫ x
−∞eθu−ψ(θ)dF (u) , θ ∈ Θ .
Supposons que F admet la densité f , alors Fθ admet la densité fθ donnée par
fθ(x) = eθx−ψ(θ)f(x) , x ∈ R .
On peut alors calculer E[g(X)] par un changement de mesure exponentiel :
E[g(X)] =∫g(x)f(x)
fθ(x)fθ(x)dx
= eψ(θ)E[g(Xθ)e−θXθ
] ,
où Xθ a pour densité fθ. Il s’agit alors de choisir θ de manière à minimiser
e2ψ(θ)E[g2(Xθ)e−2θXθ]. Dans le cas où X ∼ N (0, 1), nous avons Xθ = X + θ et
ψ(θ) = θ2/2. On cherche alors à minimiser h donnée par
h(θ) = eθ2Eïg2(X + θ)e−2θ(X+θ)
ò, θ ∈ R.
On utilise alors l’algorithme de Robbins-Monro.
37
Théorème 4 (Algorithme de Robbins-Monro). Soit F : Rd × Rd → Rd et Z une
variable aléatoire sur Rd. On définit la suite (θn)n≥1 en fixant θ0 et par l’égalité
θn+1 = θn − γn+1F (θn, Zn+1) , n ≥ 0 .
où (γn)n≥1 est une suite de réels positifs vérifiants
+∞∑n=1
γ2n < +∞ et
+∞∑n=1
γ2n = +∞ .
et (Zn)n≥1 est une suite i.i.d. de même loi que Z. Notons F0 := ∅,Ω et Fn :=
σ(Zk, 1 ≤ k ≤ n) pour n ≥ 1. Supposons que il existe θ∗ tel que E[F (θ∗, Z)] = 0
et (θ − θ∗).E[F (θ, Z)] > 0 pour tout θ 6= θ∗. Supposons également qu’il existe
une constante C > 0 telle que
E[|F (θn, Zn+1)|2|Fn] ≤ C(1 + |θn|2) P− p.s. , n ≥ 1 , (3.1)
alors θn → θ∗ P-p.s. lorsque n→ +∞.
Lemme 4 (Robbins-Siegmund stochastique). Soient (Vn)n, (βn)n, (χn)n et (ηn)n
quatre suites de variable aléatoires positives (Fn)n-adaptées telles que
E[Vn+1|Fn] ≤ Vn(1 + βn) + χn − ηn
pour tout n ≥ 1. Alors, presque surement sur
Ω1 =¶∑
n
βn < +∞ et∑n
χn < +∞©
(Vn)n converge vers V∞ variable aléatoire positive finie et la série∑n ηn converge.
Démonstration. Posons αn =Ä n∏k=1
(1 + βk)ä−1
, V ′n = αn−1Vn, χ′n = αnχn et
η′n = αnηn. Nous avons alors
E[V ′n+1|Fn] ≤ V ′n + χ′n − η′n.
La suite Y définie par Yn = V ′n−∑n−1k=1(χ′k−η′k) est donc une surmartingale. Pour
m ∈ N∗ posons τm = infn :∑nk=1(χ′k − η′k) ≥ m. La surmartingale arrêtée
(Yn∧τm)n est donc minorée par −m et converge p.s. vers une variable aléatoire
38
finie d’après le théorème de Doob. Donc (Yn)n converge p.s. vers une limite finie
sur τm = +∞.
De plus, sur Ω1, lnn∏k=1
(1 + βk) =n∑k=1
ln(1 + βk) converge quand n → +∞
et donc (αn) converge vers α > 0. La convergence de la série∑n χn implique
donc celle de∑n χ′n sur Ω1. Puisque
∑n−1k=1 η
′n ≤ Yn +
∑n−1k=1 χ
′n , on en déduit
que la série à termes positifs∑n η′n converge sur Ω1 ∩ τm = +∞ et donc
aussi (V ′n). Ceci implique la convergence de la suite (Vn) et de la série∑n ηn sur
Ω1 ∩ τm = +∞. Or sur Ω1, la série∑n χ′n converge et donc il existe m ∈ N∗
tel que∑+∞n=1(χ′n − η′n) < m, i.e. τm = +∞. Ainsi Ω1 = ∪+∞
m=1Ω1 ∩ τm = +∞et la convergence et vraie sur Ω1. 2
Démonstration du Théorème 4. Par la formule de Taylor
|θn+1 − θ∗|2 = |θn − θ∗|2 + 2∫ 1
0(tθn + (1− t)θn+1 − θ∗).(θn+1 − θn)dt
≤ |θn − θ∗|2 + γ2nF (θn, Zn+1)2 − 2γn(θn − θ∗).F (θn, Zn+1)
En prenant l’espérance conditionnelle sachant Fn et en utilisant l’hypothèse (3.1)
nous obtenons
E[|θn+1 − θ∗|2|Fn] ≤ |θn − θ∗|2(1 + Cteγ2n)− 2γn(θn − θ∗).E[F (θn, Zn+1)|Fn] .
On applique le lemme de Robbins-Siegmund stochastique avec Vn = |θn − θ∗|2,
βn = Cγ2n, χn = 0 et ηn = 2γn(θn− θ∗).E[F (θn, Zn+1)|Fn]. Nous obtenons alors
que |θn − θ∗| → 0 car sinon cela contredirait la convergence de la série∑n ηn. 2
Pour appliquer ce résultat, on calcule ∇h. Pour cela on fait un premier chan-
gement de variable qui nous donne
h(θ) = Eîeθ2
2−θXg2(X)
ó, θ ∈ Rd .
Cette expression nous montre que la fonction h est deux fois dérivable dès qu’il
existe ε > 0 tel que E[g2+ε(X)] < +∞. La dérivée première nous est alors donnée
par
∇h(θ) = Eî(X − θ)e
θ2
2−θXg2(X)
ó, θ ∈ Rd .
39
Le calcul de la dérivée seconde nous montre que h est strictement convexe. On
applique alors ce résultat avec F : (θ, z) 7→ (z − θ)e θ2
2−θzg2(z) et Z = X et on
obtient la convergence à condition de vérifier la dernière inégalité.
3.5 Exercices
Echantillonnage d’importance et option digitaleOn cherche à calculer la probabilité p := P(f(X) ≥ K) où f : R → R est une
fonction mesurable, X ∼ N (0, 1) et K est une constante.
1. Donner l’intervalle de confiance à 5% pour p en fonction du nombre de
simulation N de l’estimateur Monte Carlo IN de p et du quantile q95%N (0,1).
D’après le cours, cet intervalle de confiance est donné parïIN ± q97,5%
N (0,1)
√V(1f(X)≥K)
N
ò.
Le calcul de la variance donne V(1f(X)≥K) = p − p2 ce qui donne pour
l’intervalle de confianceïIN ± q97,5%
N (0,1)
√p− p2
N
ò.
2. Que peut-on dire de la qualité de cet intervalle de confiance pour estimer la
quantité p lorsque p est proche de 0.
On note que la taille de cet intervalle est de l’ordre de√p. En effet, l’erreur
absolue est donnée par
|p− IN | ≈1, 96√p− p2
√N
Cette erreur est trop grande par rapport à la quantité que l’on cherche à
estimer p lorsque cette dernière est petite.
3. Donner alors le nombre de simulations nécessaires pour avoir une erreur
relative de l’ordre de 20% lorsque p = 10−6.
Dans ce cas l’erreur relative est donnée par∣∣∣∣p− INp
∣∣∣∣ ≈ 1, 96√p− p2
√Np
≈ 1, 96√Np
40
Ainsi pour que cette erreur relative soit de 20%, il fautN = 108 simulations.
4. On cherche alors à mettre en place un changement de fonction d’importance
pour favoriser l’apparition de réalisations et réduire ainsi la variance. Pour
cela, on note Xθ = X+θ pour θ ∈ R. Ecrire p comme une espérance d’une
fonction de Xθ.
Par definition de p, on a
p = P(f(X) ≥ K) =∫R1f(x)≥Kg(x)dx
où g désigne la densité de la loi N (0, 1). Notons gθ la densité de la loi
N (θ, 1), nous avons alors
p =∫R1f(x)≥Kg(x)dx
=∫R1f(x)≥K
g(x)
gθ(x)gθ(x)dx
= Eï1f(Xθ)≥K
g(Xθ)
gθ(Xθ)
ò.
On utilise ensuite la définition de g et gθ ce qui nous donne
p = Eï1f(Xθ)≥Ke
θ2
2−θXθ
ò.
5. En déduire une nouvelle expression de p en fonction de X .
On utilise Xθ = X + θ ce qui nous donne
p = Eï1f(X+θ)≥Ke
− θ2
2−θXò.
6. On suppose que f(x) = ex , x ∈ R. Calculer VÅ1f(X+θ)≥Ke
− θ2
2−θXã
.
En déduire qu’il existe un θ optimal i.e. minimisant la variance.
Pour minimiser la variance, il faut minimiser le moment d’ordre 2 donné
par
Eï1eX+θ≥Ke
−2θXòe−θ
2
=∫R1ex+θ≥Ke
−2θx e−x
2
2
√2πdxe−θ
2
=∫ +∞
ln(K)−θ
e−(x+2θ)2
2
√2π
dxeθ2
=∫ +∞
ln(K)+θ
e−y2
2
√2πdyeθ
2
41
On constate que cette fonction admet +∞ comme limite lorsque θ → ±∞ et est
continue. Elle admet donc un minimum.
Représentation exponentielle d’intégrales gaussiennesOn souhaite mettre en œuvre différentes méthodes de réduction de variance pour
des intégrales gaussiennes de la forme E[φ(G)] où φ : Rd → R est une fonction
donnée et G = (G1, . . . , Gd) un vecteur gaussien standard de Rd (et d grand).
1. Montrer rigoureusement qu’en dimension 1 (d = 1), on a
E[φ(G1)] = Eïφ(√Y1) + φ(−
√Y1)√
2πY1
ò,
où Y1 est une loi exponentielle de paramètre λ à déterminer.
Par définition de la loi E(λ) nous avons
Eïφ(√Y1) + φ(−
√Y1)√
2πY1
ò=
∫ +∞
0
φ(√y) + φ(−√y)√
2πyλe−λydy
On fait le changement de variable x =√y, nous obtenons
Eïφ(√Y1) + φ(−
√Y1)√
2πY1
ò=
∫ +∞
0
φ(x) + φ(−x)√2π
2λe−λx2
dx
=∫R
φ(x)√2π
2λe−λx2
dx
En prenant λ = 12
on obtient
Eïφ(√Y1) + φ(−
√Y1)√
2πY1
ò=
∫R
φ(x)√2πe−x
2/2dx = E[φ(G1)] .
2. En déduire (toujours pour d = 1) que pour B1 une variable aléatoire, in-
dépendante de Y1, suivant une loi de Bernoulli à valeurs dans −1, 1 on
a
E[φ(G1)] = Eï 2
π
φ(B1
√Y1)√
Y1
ò.
42
Puisque B1 est indépendante de Y1 et suit une loi de Bernoulli à valeurs
dans −1, 1 de paramètre 12
nous avons
Eï 2
π
φ(B1
√Y1)√
Y1
ò= E
ïEï 2
π
φ(B1
√Y1)√
Y1
∣∣∣∣Y1
òò=
1
2Eï 2
π
φ(√Y1)√Y1
ò+
1
2Eï 2
π
φ(−√Y1)√
Y1
ò= E[φ(G1)]
d’après la question précédente.
3. Montrer qu’en dimension d ≥ 1
E[φ(G)] = EïÅ 2
π
ã d2 φ(B1
√Y1, . . . , Bd
√Yd)√
Y1 × · · · × Yd
òIl suffit de procéder par récurrence en utilisant la question précédente et
l’indépendance des G1, . . . , Gd.
4. Dans la suite,on notera Z = (B1
√Y1, . . . , Bd
√Yd) et V (x) = |x1 · · ·xd|
pour tout x ∈ Rd. Programmer les estimateurs Igauss et Iexpo basés sur ces
deux représentations et comparer les résultats (la variance empirique et la
taille des intervalles de confiance) :
Igauss =1
N
N∑k=1
φ(Gk) et Iexpo =Å 2
π
ã d2 1
N
N∑k=1
φ(Zk)
V (Zk)
où (Gk)k≥1 est une suite i.i.d. de loi N (0; Id) et (Zk)k≥1 est une suite i.i.d.
de loi Z = (B1
√Y1, . . . , Bd
√Yd).
5. Quelle transformation T : Rd → Rd laisse invariante la loi de Z ? Mettre en
œuvre une méthode de réduction de variance utilisant cette transformation T
pour le calcul de E[ φ(Z)V (Z)
] et écrire l’estimateur de Monte-Carlo associé. Sous
quelle condition sur φV
sait-on théoriquement que la variance est réduite ?
L’application T : z 7→ −z laisse invariante la loi de Z. On peut donc mettre
en place une méthode de réduction de variance en estimant 12E[ φ(Z)
V (Z)] +
12E[ φ(−Z)
V (−Z)].
Sous la condition que φV
est strictement monotone composante par compo-
sante, la variance est réduite d’après le cours.
43
6. Montrer que VÅEîφ(Z)V (Z)|Yóã≤ V
Äφ(Z)V (Z)
ä. Ecrire formellement l’estimateur
de Monte-Carlo que cette inégalité suggère d’utiliser. Cette méthode vous
semble-t-elle efficace en grande dimension (Prendre en compte le nombre
d’évaluations de la fonction φV
) ?
L’inégalité VÅEîφ(Z)V (Z)|Yóã≤ V
Äφ(Z)V (Z)
ärésulte de l’inégalité de Jensen.
L’estimateur que suggère cette inégalité est donc
1
N
N∑n=1
1
2d∑
b1,...,bd∈±1
φ
V
Äb1Z
n1 , . . . , bdZ
nd
ä.
Cet estimateur n’est pas raisonnable : on fait beaucoup appel à φV
.
On va maintenant mettre en œuvre une méthode de stratification pour le vecteur
Y . On note dans la suite S1 = Y1, S2 = Y1 + Y2, . . ., Sd = Y1 + · · ·+ Yd.
7. En remarquant que S = AY avec det(A) = 1, montrer que le vecteur S
suit la loi de densité f par rapport à la mesure de Lebesgue sur Rd
f(s) = λde−λsd10<s1<s2<...<sd , s = (s1, . . . , sd) ∈ Rd .
8. En déduire que Sd suit la loi d’Erlang de densité g(s) = λd
(d−1)!sd−1e−λs1s>0
et que la loi de (S1, . . . , Sd−1) sachant Sd = x admet h pour densité sur
Rd−1 définie par
h(s1, . . . , sd−1) = (d− 1)!x−(d−1)10<s1<···<sd−1<x ,
pour s = (s1, . . . , sd−1) ∈ Rd−1.
On rappelle que le vecteur ordonné (Ux(1), . . . , U
x(d−1)) d’un vecteurU = (Ux
1 , . . . , Uxd−1)
uniformément distribué sur [0, x]d−1 suit la loi de densité h sur Rd−1.
9. Construire une partition (Ak)1≤k≤K vérifiant la propriété suivante
P[Sd ∈ Ak] =1
K,
pour tout k = 1, . . . , K. Indiquer précisément comment simuler Xk de loi
Sd sachant Sd ∈ Ak.
44
10. Déduire des questions 8. et 9. que
Eï φ(Z)
V (Z)
ò=
1
K
K∑k=1
EïφÄB1
»Ux
(1), B2
»Ux
(2) − Ux(1), . . . , Bd
»Xk − Ux
(d−1)
ä√Ux
(1)(Ux(2) − Ux
(1)) · · · (Xk − Ux(d−1))
òEcrire l’estimateur de Monte-Carlo stratifié en détaillant les différentes étapes
de simulation. Programmer cet estimateur et comparer à l’estimateur initial
IgaussN . Comment choisir le nombre de tirages par strate ?
45
Chapitre 4
Méthodes de quasi-Monte Carlo
4.1 Discrépance
Définition 2. Une suite (un)n≥1 dans [0, 1]d est dite uniforme sur [0, 1]d si pour
tout x ∈ [0, 1]d on a
limN→∞
1
N
N∑n=1
d∏i=1
1uni ≤xi =d∏i=1
xi.
Etant donnée une suite u = (un)n≥1 uniforme sur [0, 1]d, on définit la discré-
pance d’ordre p par
Dp(u,N) := ‖F − F uN‖Lp(Rd,dx) , p ∈ N ∪ +∞ ,
où F est la fonction de répartition de la loi U[0,1]d et F uN est définie par
F (x) :=d∏i=1
(xi1xi∈[0,1] + 1xi>1) et F uN(x) =
1
N
N∑n=1
d∏i=1
1uni ≤xi
pour N ≥ 1 et x ∈ [0, 1]d. Pour x ∈ [0, 1]d fixé, le terme F (x) − F uN(x) corres-
pond à la différence entre le volume théorique du rectangled∏i=1
[0, xi] et le volume
“empiriquement” estimé par la suite u. Si u est uniforme sur [0, 1]d, alors cette
différence doit tendre vers 0. La discrépance D∗p(u,N) mesure en quelque sorte la
bonne répartition des points de la suite u dans l’espace [0, 1]d.
46
Théorème 5. Il y a equivalence entre les deux propositions suivantes :
(i) u est uniforme sur [0, 1]d,
(ii) limN→+∞Dp(u,N) = 0 pour tout p ∈ N∗ ∪ +∞.
Démonstration. C’est une conséquence directe du théorème de convergence dominée.
2
L’intérêt de la notion de discrépance vient de l’inégalité de Koksma-Hlawka.
Avant d’énoncer ce résultat, on a besoin d’introduire la notion de fonction à varia-
tion finie.
Définition 3. Soit f : [0, 1]d → R et πi = ti0 = 0 < ti1 < . . . < tini = 1. On
note
V (f, πd, x) =nd∑k=1
|f(x1, . . . , xd−1, tdk)− f(x1, . . . , xd−1, t
dk−1)|
et de façon récursive
V (f, πk, . . . , πd, x) = V (V (f, πk+1, . . . , πd, .), πk, x)
pour x ∈ [0, 1]. La fonction f est dite à variation finie si sa variation V (f) définie
par
V (f) = sup(π1,...,πd)
V (f, π1, . . . , πd)
est finie
On montre par exemple que tout fonction f de classe C1 est à variations finies.
Pour de telles fonctions, nous avons alors une estimation de l’erreur d’approxima-
tion de l’intégrale par les valeurs moyennes suivant une suites en fonction de la
discrépance.
Théorème 6 (Inégalité de Koksma-Hlawka). Soit f : [0, 1]d → R une fonction à
variation finie. Pour toute suite u = (un)n≥1 dans [0, 1]d on a∣∣∣∣ ∫[0,1]d
f(x)dx−− 1
N
N∑n=1
f(un)∣∣∣∣ ≤ V (f)D∞(u,N),
pour tout N ≥ 1.
47
Pour calculer E[f(U)] où U ∼ U[0,1]d , on peut donc utiliser une suite (un)n≥1
uniforme sur [0, 1]d et calculer 1N
∑Nn=1 f(un). Plus la discrépance de la suite sera
faible et meilleur sera l’approximation de E[f(U)]. C’est une alternative aux mé-
thodes de Monte Carlo présentées dans les chapitres précédents. Lorsque la suite
(un)n≥1 est purement déterministe, comme c’est le cas pour les suites à discré-
pance faible présentées ci-dessous, on parle de nombres quasi-aléatoires.
4.2 Cas des suites i.i.d de loi U[0,1]
Si (Un)n≥1 est une suite de v.a. i.i.d. de loi U[0,1]d , elle est P−p.s. uniforme sur
[0, 1]d. On peut donc calculer sa discrépance Dp(U,N) qui est alors une quantité
aléatoire.
Théorème 7. Si (Un)n≥1 est une suite de v.a. i.i.d. de loi U[0,1]d alors
lim supN→+∞
N
2 ln lnND∞(U,N) =
1
2
et
E[D∞(U,N)] ≤ cd∞√N,
avec c∞d → +∞ lorsque d→ +∞.
Nous déduisons de ce résultat que
D∞(U,N) ≤ OÅ ln lnN
N
ãP− a.s.
4.3 Exemples de suites à discrépance faible
Il est possible de contruire des suites dans [0, 1]d dont la discrépance est plus
faible que celle obtenue pour les suites de v.a. i.i.d. de loi U[0,1]d . Nous présen-
tons dans la suite les exemples les plus simples à mettre en oeuvre. Il faut bien
garder en mémoire que si ces suites ont une discrépance faible asymptotiquement
lorsque N → +∞, celle-ci dépend généralement de la dimension d et peut deve-
nir très grande, à N fixé, lorsque la d augmente. En grande dimension, il est donc
préférable d’utiliser des suites i.i.d. de loi U[0,1]d .
48
a- Suite de Van Der CoruptSoit p un nombre premier. Alors tout entier n admet une unique décomposition
(en base p) de la forme
n =L−1∑k=0
dk(n)pk
avec donc 0 ≤ dk(n) < p. On pose
gp(n) =L−1∑k=0
dk(n)p−k−1 , n ≥ 1.
Alors il existe une constante C dépendant uniquement de b telle que (gp(n))n≥1
vérifie
D∞(gb(1), . . . , gb(N)) ≤ ClogN
N
pour tout N ≥ 1.
b- Suite de HaltonLa suite de Halton généralise la suite de Van Der Corput pour les dimen-
sions supérieures à 1. Soit s la dimension du problème et p1, . . . , ps les s premier
nombres premiers. On définit alors
xn = (gp1(n), . . . , gps(n)) , n ≥ 1.
Il existe une constante C dépendant uniquement de p1, . . . , ps, telle que (xn)n≥1
vérifie
D∞(x1, . . . , xN) ≤ C(logN)s
N
pour tout N ≥ 1.
c- Suite SQRT Pour tout réel x, on noteEnt[x] sa partie entière. Soit p1, . . . , pd
les d premiers nombres premiers. Pour tout n ≥ 1 et 1 ≤ i ≤ d, on pose uin =
n√pi − Ent[n
√pi].On a alors
D∞(u,N) = OÅ 1
N1−ε
ãpour tout ε > 0.
49
Chapitre 5
Sensibilités
On considère une variable aléatoire Xθ dépendant d’un paramètre θ réel. Plus
précisément, on suppose que Xθ est de la forme
Xθ = G(θ, Z)
où θ ∈]θ, θ[ avec θ < θ, G : ]θ, θ[×R → R est une fonction déterministe et Z
une variable aléatoire ne dépendant d’aucun paramètre telle que E[G(θ, Z)] existe
pour tout θ ∈]θ, θ[. On cherche à évaluer la dérivée I ′(θ) où
I(θ) = E[Xθ] = E[G(θ, Z)].
5.1 Méthode des différences finies
Une première approche consiste à approcher cette dérivée par une différence
finie.
a- Méthode naïveCette méthode vient du fait que pour une fonction f dérivable, nous avons
f(x+ h)− f(x)
h= f ′(x) + o(1) , h→ 0 .
50
Cette méthode consiste donc à approcher ∂I(θ)∂θ
par I(θ+h)−I(θ)h
avec h petit. Cette
dernière quantité peut elle même être approchée par IN (θ+h)−IN (θ)h
où
IN(θ) =1
N
N∑n=1
Xθn et IN(θ + h) =
1
N
N∑n=1
Xθ+hn
avec (Xθn)n≥1 et (Xθ+h
n )n≥1 des réalisations indépendantes de Xθ et Xθ+h respec-
tivement.
b- Méthode avec les mêmes aléasEn utilisant la représentation Xθ = G(θ, Z), il est possible de réduire le
nombre de simulation en considérant les même réalisation de Z. On considère
une suite (Zn)n≥1 de réalisations i.i.d. de Z de laquelle on dérive les estimateurs
suivants :
J1N,h(θ) =
1
N
N∑n=1
G(θ + h, Zn)−G(θ, Zn)
h
J2N,h(θ) =
1
N
N∑n=1
G(θ + h, Zn)−G(θ − h, Zn)
2h
Proposition 13. Supposons que
— θ 7→ Xθ soit Lipschitz en norme L2 sur ]θ, θ[ : il exists une constante L1
telle que
‖G(θ, Z)−G(θ′, Z)‖L2 ≤ L1|θ − θ′|
pour tout θ, θ′ ∈]θ, θ[,
— θ 7→ I(θ) de classe C2 avec I ′′(θ) L2-Lipschitz sur ]θ, θ[.
Alors
‖J1N,h(θ)− I ′(θ)‖2
L2 ≤1
4supξ∈]θ,θ[
|I ′′(ξ)|2h2 + L21
1
N
‖J2N,h(θ)− I ′(θ)‖2
L2 ≤1
4L2
2h4 + L2
1
1
N
pour N ≥ 1, θ ∈]θ, θ[ et h ∈ R tel que θ + h, θ − h ∈]θ, θ[.
51
Démonstration. On traite la première inégalité Par Taylor, nous avons
I(θ + h) = I(θ) + I ′(θ)h+ I ′′(ξ1)h2
2avec ξ1 ∈]θ, θ + h[ .
On en déduit que∣∣∣∣I(θ + h)− I(θ)
h− I ′(θ)
∣∣∣∣ =∣∣∣∣I ′′(ξ)h
∣∣∣∣h2
2
= supξ∈]θ,θ[
∣∣∣∣I ′′(ξ)∣∣∣∣h2 .
On décompose ensuite le moment d’orde 2 en biais-variance :
‖J1N,h(θ)− I ′(θ)‖2
L2 =ÅI(θ + h)− I(θ)
h− I ′(θ)
ã2
+ V(J2n,h(θ))
≤ 1
4supξ∈]θ,θ[
|I ′′(ξ)|2h2 +1
NEïÅG(θ + h, Z)−G(θ, Z)
h
ã2ò.
La fonction θ 7→ Xθ = G(θ, Z) étant L1-Lipschitz au sens L2, nous obtenons le
résultat souhaité.
On traite la seconde inégalité. Par Taylor, nous avons
I(θ + h) = I(θ) + I ′(θ)h+ I ′′(ξ1)h2
2avec ξ1 ∈]θ, θ + h[ ,
I(θ − h) = I(θ)− I ′(θ)h+ I ′′(ξ2)h2
2avec ξ2 ∈]θ − h, θ[ .
On en déduit que∣∣∣∣I(θ + h)− I(θ − h)
2h− I ′(θ)
∣∣∣∣ =∣∣∣∣I ′′(ξ1)− I ′′(ξ2)
2h
∣∣∣∣h2
2
=∣∣∣∣I ′′(ξ1)− I ′′(ξ2)
∣∣∣∣h4≤ L2 × 2h× h
4= L2
h2
2.
On décompose ensuite le moment d’orde 2 en biais-variance :
‖J2N,h(θ)− I ′(θ)‖2
L2 =ÅI(θ + h)− I(θ − h)
2h− I ′(θ)
ã2
+ V(J2n,h(θ))
≤ L22
h4
4+
1
NEïÅG(θ + h, Z)−G(θ − h, Z)
2h
ã2ò.
La fonction θ 7→ Xθ = G(θ, Z) étant L1-Lipschitz au sens L2, nous obtenons le
résultat souhaité. 2
52
5.2 Méthode par différentiation
Cette approche consiste à utiliser la régularité de la fonction G pa rapport à sa
première variable pour dériver sous l’intégrale.
Théorème 8 (Théorème de dérivation sous l’intégrale). On fixe un intervalle
fermé I de R. Supposons que
— θ 7→ G(θ, Z) est P-p.s. dérivable sur I ,
— il existe une variable aléatoire intégrable Y telle que∣∣∣∣∂G∂θ (θ, Z)∣∣∣∣ ≤ Y pour tout θ ∈ I, P− p.s.
Alors θ 7→ I(θ) est derivable sur I de dérivée
I ′(θ) = Eï∂G∂θ
(θ, Z)ò, θ ∈ I .
Une conséquence de ce théorème est qu’il est possible (en théorie) de construire
un estimateur sans biais de I ′(θ) dès lors qu’on est en mesure de calculer la dérivée∂G∂θ
.
Exemple 5. Supposon que I est donnée par
I(θ) = Eîf(Xθ)
ó, θ > 0 ,
où f : R→ R est dérivable de dérivée bornée etXθ ∼ E(θ) pour θ > 0. Alors on
peut supposer que Xθ est de la forme Eθ
où E ∼ E(1). Cela revient à considérer
le cas où G est donnée par
G(θ, e) = fÄeθ
ä, θ, e > 0 .
On calcule alors
∂G
∂θ(θ, e) = − x
θ2f ′Äxθ
äet
I ′(θ) = Eï− E
θ2f ′ÅEθ
ãò, θ > 0 .
53
5.3 Méthode de log-vraisemblance
On considère maintenant le cas où Xθ admet une densité notée p(θ, .) par
rapport à la mesure de Lebesgue. Supposons que la quantité I(θ) est donnée par
I(θ) = Eîf(Xθ)
ó=
∫f(x)p(θ, x)dx .
Supposons qu’il soit possible d’intervertir dérivée et intégrale. Un calcul formel
suivante nous donne une nouvelle expression de I ′(θ) :
I ′(θ) =∫f(x)
∂p
∂θ(θ, x)dx
=∫f(x)
∂ ln p
∂θ(θ, x)p(θ, x)dx
= Eïf(Xθ)
∂ ln p
∂θ(θ,Xθ)
ò.
On obtient donc une quantité qui ne fait pas intervenir la dérivée de f . La propo-
sition suivante formalise ce résultat.
Proposition 14. Supposons que θ 7→ p(θ, x) est dérivable pour presque tout x et
qu’il existe une fonction g : R→ R+ telle que∫|f(x)g(x)|dx < +∞
et
supθ∈]θ,θ[
∣∣∣∣p(θ, x)∂ ln p
∂θ(θ, x)
∣∣∣∣ ≤ g(x)
pour presque tout x ∈ R. Alors
I ′(θ) = Eïf(Xθ)
∂ ln p
∂θ(θ,Xθ)
òD’après la représentation précédente on peut alors mettre en oeuvre un esti-
mateur de type Monte Carlo de I ′(θ).
Exemple 6. Supposons que Xθ ∼ E(θ) pour θ > 0. Alors on peut supposer que
Xθ est de la forme Eθ
où E ∼ E(1). Alors
I(θ) =∫ +∞
0f(x)θe−θxdx , θ > 0 .
54
Nous avons p(θ, x) = θe−θx et ∂ ln p∂θ
(θ, x) = 1θ− x ce qui donne
I ′(θ) = Eïf(Xθ)
Å1
θ−Xθ
ãò.
Il faut noter qu’en pratique la variance de ce type d’estimateur peut être im-
portante. En revanche le point positif est qu’il n’y a pas besoin d’hypothèse de
régularité sur la fonction f .
55
Top Related