Master 1 MMD - Séries Temporelles (Paris-Dauphine)

196
Analyse des S´ eries Temporelles et Applications Eric Moulines, Fran¸cois Roueff el´ ecom ParisTech 15 septembre 2010

description

Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Transcript of Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Page 1: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Analyse des Series Temporelles et Applications

Eric Moulines, Francois RoueffTelecom ParisTech

15 septembre 2010

Page 2: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Table des matieres

I Processus au second ordre, representation spectrale et prediction 4

1 Processus aleatoires et stationnarite 51.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Definition et construction de la loi d’un processus aleatoire . . . . . . . . . . . . . . . 6

1.2.1 Processus aleatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 Repartitions finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.3 Stationnarite stricte d’un processus a temps discret . . . . . . . . . . . . . . . . 101.2.4 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Elements d’Analyse Hilbertienne 142.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Projection et principe d’orthogonalite . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Bases Hilbertiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Processus stationnaires au second ordre 233.1 Processus du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Covariance d’un processus stationnaire au second ordre . . . . . . . . . . . . . . . . . 24

3.2.1 Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.2 Interpretation de la fonction d’autocovariance . . . . . . . . . . . . . . . . . . . 27

3.3 Mesure spectrale d’un processus stationnaire au second ordre a temps discret . . . . . 31

4 Filtrage des processus stationnaires au second ordre 364.1 Filtrages lineaires de processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1.1 Definition et exemples de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.1.2 Filtrage des processus stationnaires au second ordre . . . . . . . . . . . . . . . 384.1.3 Filtres a reponse impulsionnelle sommable . . . . . . . . . . . . . . . . . . . . . 394.1.4 Representation spectrale des processus stationnaire du second ordre et filtrage

lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2.1 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2.2 Processus AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2.3 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.3 Preuves des theoremes 4.1.6 et 4.1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1

Page 3: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

5 Prediction des processus stationnaires au second ordre 575.1 Prediction lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.1.1 Estimation lineaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 575.1.2 Prediction lineaire d’un processus stationnaire au second-ordre . . . . . . . . . 58

5.2 Algorithme de Levinson-Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.3 Algorithme de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.4 Algorithme des innovations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.5 Decomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.6 Preuves des theoremes 5.1.3 et 5.5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

II Estimation pour les processus lineaires 78

6 Statistique Asymptotique 796.1 Notions de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.2 Suites tendues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 816.3 Caracterisations de la convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . 836.4 Theoreme de continuite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.5 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.6 Theoreme de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.7 Symboles o et O stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 916.8 Delta–methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.9 Convergence des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7 Estimation de la moyenne et de la fonction d’autocovariance 977.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977.2 Estimation des coefficients d’autocovariance et d’autocorrelation . . . . . . . . . . . . 997.3 Theoremes Limites pour les observations dependantes . . . . . . . . . . . . . . . . . . 106

8 Estimation de la densite spectrale 1148.1 Le periodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1148.2 Estimateur a noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1208.3 Preuves des theoremes 8.1.2, 8.1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

9 Estimation des modeles ARMA (p, q) : methodes elementaires 1299.1 Estimation AR : methode de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . 1299.2 Estimation MA : methode de Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1319.3 Estimation ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

10 Estimation des modeles ARMA(p, q) : methodes de maximum de vraisemblance 13710.1 Methode du Maximum de vraisemblance pour les modeles AR . . . . . . . . . . . . . . 137

10.1.1 modele AR(1) : Methode du maximum de vraisemblance exact . . . . . . . . . 13710.1.2 modele AR(1) : une autre methode de calcul de la vraisemblance . . . . . . . . 13910.1.3 modele AR(1) : methode du maximum de vraisemblance conditionnel . . . . . 14010.1.4 modele AR(p) : Methode du maximum de vraisemblance exact . . . . . . . . . 141

2

Page 4: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

10.1.5 Modele AR(p) : Maximum de vraisemblance approche . . . . . . . . . . . . . . 14310.2 Methode du maximum de vraisemblance pour les modeles MA . . . . . . . . . . . . . 144

10.2.1 modele MA(1) : methode du maximum de vraisemblance exact . . . . . . . . . 14410.2.2 modele MA(1) : methode du maximum de vraisemblance conditionnel . . . . . 14710.2.3 Modele MA(q) : Methode du maximum de vraisemblance exact . . . . . . . . . 149

10.3 Methode du maximum de vraisemblance pour les modeles ARMA . . . . . . . . . . . . 15010.4 Methodes numeriques d’optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

10.4.1 Algorithme de la plus forte pente . . . . . . . . . . . . . . . . . . . . . . . . . . 15110.4.2 Algorithme de Newton et de quasi Newton . . . . . . . . . . . . . . . . . . . . 152

III Modeles d’etats 153

11 Definitions, exemples et inference des etats 15411.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15411.2 Filtrage dans le modele lineaire Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 15511.3 Lissage dans le modele lineaire Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . 15911.4 Le filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16111.5 Equations de prediction et de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16511.6 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17011.7 La methode a deux filtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

11.7.1 Parametrisation par la matrice d’information . . . . . . . . . . . . . . . . . . . 17311.7.2 Le modele lineaire gaussien (Encore !) . . . . . . . . . . . . . . . . . . . . . . . 17411.7.3 Recursion retrograde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

12 Estimation des parametres pour les modeles d’etats 17812.1 Maximum de vraisemblance : l’approche innovation . . . . . . . . . . . . . . . . . . . . 17812.2 Maximum de vraisemblance dans des modeles a donnees latentes . . . . . . . . . . . . 179

12.2.1 Formulation du probleme et notations . . . . . . . . . . . . . . . . . . . . . . . 17912.2.2 L’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18012.2.3 Methodes directes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18212.2.4 Avantages et incovenients des algorithmes de gradient . . . . . . . . . . . . . . 18412.2.5 Quantite intermediaire de l’EM pour le modele lineaire Gaussien . . . . . . . . 184

IV Annexes 187

A Rappels sur la transformee de Fourier 188

B Complements sur les matrices 191

3

Page 5: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Premiere partie

Processus au second ordre,representation spectrale et prediction

4

Page 6: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 1

Processus aleatoires et stationnarite

1.1 Quelques exemples

Le paragraphe 1.2 definit le formalisme probabiliste permettant de decrire les processus aleatoires.Les quelques exemples qui suivent illustrent la diversite des situations dans lesquelles la modelisationstochastique (ou aleatoire) des series temporelles joue un role important.

1.1 Exemple (Battements cardiaques):La figure 1.1 represente l’evolution, sur une duree totale de 900 secondes, du rythme cardiaque d’un sujetau repos. Ce rythme est mesure en nombre de battements par minute toutes les 0.5 secondes.

0 200 400 600 80070

80

90

100

110

Figure 1.1 – Battements cardiaques : evolution du nombre de battements parminute en fonction du temps mesure en seconde.

1.2 Exemple (Trafic internet):La figure 1.2 represente les temps d’inter-arrivees de paquets TCP, mesures en secondes, sur la passerelledu laboratoire Lawrence Livermore. La trace representee a ete obtenue en enregistrant 2 heures de trafic.Pendant cette duree, environ 1.3 millions de paquets TCP, UDP, etc. ont ete enregistres, en utilisant la

5

Page 7: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

procedure tcpdump sur une station Sun. D’autres series de ce type peuvent etre obtenues sur The InternetTraffic Archive, http ://ita.ee.lbl.gov/.

0 2 4 6 8 10 12

x 105

0

0.05

0.1

0.15

0.2

0.25

Figure 1.2 – Trace de trafic Internet : temps d’inter-arrivees de paquets TCP.

1.3 Exemple (Parole):La figure 1.3 represente un segment de signal vocal echantillonne (la frequence d’echantillonnage est de8000 Hz). Ce segment de signal correspond a la realisation du phoneme ch (comme dans chat) qui estun son dit fricatif, c’est-a-dire produit par les turbulences du flot d’air au voisinage d’une constriction (ouresserrement) du conduit vocal.

1.4 Exemple (Indice financier):La figure 1.4 represente les cours d’ouverture journaliers de l’indice Standard and Poor 500, du 2 Janvier1990 au 25 Aout 2000. l’indice S&P500 est calcule a partir de 500 actions choisies parmi les valeurs coteesau New York Stock Exchange (NYSE) et au NASDAQ en fonction de leur capitalisation, leur liquidite, leurrepresentativite dans differents secteurs d’activite. Cet indice est obtenu en ponderant le prix des actionspar le nombre total d’actions, le poids de chaque valeur dans l’indice composite etant proportionnel a lacapitalisation.

1.2 Definition et construction de la loi d’un processus aleatoire

1.2.1 Processus aleatoire

Definition 1.2.1 (Processus aleatoire)Soient (Ω,F ,P) un espace de probabilite, T un ensemble d’indices et (E, E) un espace mesurable. Onappelle processus aleatoire une famille Xt, t ∈ T de v.a. a valeurs dans (E, E) indexees par t ∈ T .

Le parametre t represente ici le temps. Lorsque T ⊂ Z, nous dirons que le processus est a tempsdiscret et, lorsque T ⊂ R, que le processus est a temps continu. Dans la suite de cet ouvrage, nous

6

Page 8: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Figure 1.3 – Signal de parole echantillonne a 8000 Hz : son non voise ch.

500 1000 1500 2000 2500200

400

600

800

1000

1200

1400

1600

Figure 1.4 – Cours quotidien d’ouverture de l’indice S&P500 : entre Janvier1990 et Aout 2000.

7

Page 9: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

nous interesserons de facon prioritaire aux processus a temps discret T ⊂ Z. Quant a (E, E), nousconsidererons le plus souvent (R,B(R)) (ou B(R) est la tribu borelienne de R) ou (Rd,B(Rd)). Dans lepremier cas, on dira que le processus aleatoire est scalaire. Dans le second, nous dirons que le processusest vectoriel.

Notons qu’en fait un processus est une application X : Ω× T → E, (ω, t) 7→ Xt(ω) telle que :– a chaque instant t ∈ T , l’application ω 7→ Xt(ω) ∈ (E, E) est une variable aleatoire,– pour chaque epreuve ω ∈ Ω, l’application t 7→ Xt(ω) est une fonction de T → E qui s’appelle la

trajectoire associee a l’epreuve ω.

1.2.2 Repartitions finies

Etant donnes 2 espaces mesurables (E1, E1) et (E2, E2), on definit l’espace mesurable produit (E1×E2, E1⊗E2) ou × designe le produit cartesien usuel des ensembles et ⊗ l’operation correspondante surles tribus : E1 ⊗ E2 designe la tribu engendree par A1 ×A2, A1 ∈ E1 : A2 ∈ E2, ce que l’on ecrira

E1 ⊗ E2 = σA1 ×A2 : A1 ∈ E1, A2 ∈ E2 .

Comme la classe d’ensembles A1×A2 : A1 ∈ E1, A2 ∈ E2 est stable par intersection, une probabilitesur E1 ⊗ E2 est caracterisee par sa restriction a cette classe (voir le cours de probabilite). On definitde meme un espace mesurable produit (E1 × · · · × En, E1 ⊗ · · · ⊗ En) a partir d’un nombre fini nd’espaces mesurables (Et, Et), t ∈ T . Si T n’est pas de cardinal fini, cette definition se generalise enconsiderant la tribu engendree par les cylindres sur le produit cartesien

∏t∈T Et qui contient l’ensemble

des familles (xt)t∈T telles que xt ∈ Et pour tout t ∈ T . Examinons le cas qui nous servira par la suiteou (Et, Et) = (E, E) pour tout t ∈ T . On note alors ET =

∏t∈T E l’ensemble des trajectoires (xt)t∈T

telles que xt ∈ E pour tout t, que l’on munit de la tribu engendree par les cylindres

E⊗T = σ

∏t∈I

At × ET\I : I ∈ I, ∀t ∈ I, At ∈ F

,

ou l’on note I l’ensemble des parties finies de T .Soit X = Xt, t ∈ T un processus defini sur (Ω,F ,P) a valeurs dans (E, E) I ∈ I. On note PI

la loi du vecteur aleatoire Xt, t ∈ I, c’est-a-dire la mesure image de P par ce vecteur : PI est laprobabilite sur (EI , E⊗I) definie par

PI

(∏t∈I

At

)= P (Xt ∈ At, t ∈ I) , (1.1)

ou At, t ∈ T sont des elements quelconques de la tribu E . La probabilite PI est une probabilite fini-dimensionnelle ou repartition finie du processus X.

Definition 1.2.2On appelle famille des repartitions finies l’ensemble des repartitions finies (PI , I ∈ I).

La specification de la mesure PI permet de calculer la probabilite d’evenements de la formeP(∩t∈IXt ∈ At) ou (At, t ∈ I) sont des elements de la tribu E , ou de maniere equivalente, de calculerl’esperance E

∏t∈I ft(Xt)

ou (ft, t ∈ I) sont des fonctions boreliennes positives. Il est important de

8

Page 10: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

noter que, la donnee des repartitions finies ne permet pas directement d’evaluer la probabilite d’unevenement faisant intervenir un nombre infini d’indices de temps ; par exemple, pour un processusa temps discret indexe par T = Z, les repartitions finies ne permettent pas d’evaluer directement laprobabilite d’un evenement de la forme supt∈T Xt ≥ a. Soit J ⊂ I deux parties finies ordonnees.Soit ΠI,J la projection canonique de EI sur EJ definie par

ΠI,J [x] = (xt)t∈J pour tout x = (xt)t∈I ∈ EI . (1.2)

La projection canonique preserve uniquement les coordonnees du vecteur appartenant au sous ensembled’indices J . Par la definition (1.1), on observe que PJ est la mesure image de ΠI,J definie sur l’espacede probabilite (EI , E⊗I ,PI) :

PI Π−1I,J = PJ . (1.3)

Cette relation formalise le resultat intuitif que la distribution fini-dimensionnelle d’un sous-ensembleJ ⊂ I se deduit de la distribution fini-dimensionnelle PI en “integrant” par rapport aux variablesXt sur l’ensemble des t appartenant au complementaire de J dans I. Cette propriete montre que lafamille des repartitions finies d’un processus est fortement structuree. En particulier, les repartitionsfinies doivent, au moins, verifier les conditions de compatibilite (1.3). Nous allons voir dans la suiteque cette condition est en fait aussi suffisante.

Soit ΠI la projection canonique de ET sur EI ,

ΠI(x) = (xt)t∈I pour tout x = (xt)t∈T ∈ ET . (1.4)

Si I = s avec s ∈ T , on notera simplement

Πs(x) = Πs(x) = xs pour tout x = (xt)t∈T ∈ ET . (1.5)

Theoreme 1.2.3 (Theoreme de Kolmogorov)On pose (E, E) = (Rd,B(Rd)) pour d ≥ 1. Soit νI , I ∈ I une famille de probabilites indexees parl’ensemble des parties finies ordonnees de T telle, que pour tout I ∈ I, νI est une probabilite sur(EI , E⊗I). Supposons de plus que la famille νI , I ∈ I verifie les conditions de compatibilite (1.3),pour tout I, J ∈ I, tel que I ⊂ J , νI Π−1

I,J = νJ . Il existe une probabilite unique P sur l’espace

mesurable (ET , E⊗T ) telle que, pour tout I ∈ I, νI = P Π−1I .

Demonstration Comme la classe des cylindres est stable par intersection et engendre la tribu ET , ilest clair que la relation νI = P Π−1

I implique l’unicite de P. On admet l’existence (voir [Kallenberg,2002, Theorem 6.16] pour une preuve complete) sous l’hypothese ou (E, E) un espace mesurableborelien c’est-a-dire pour lequel il existe une bijection mesurable d’inverse mesurable de E dans unborelien inclus dans [0, 1] (en particulier (Rd,B(Rd)) convient pour tout d ≥ 1).

Definition 1.2.4 (Processus canonique)Soit (E, E) un espace mesurable et (ET , ET ) l’espace mesurable des trajectoires correspondants. La fa-mille canonique sur (ET , ET ) est la famille des fonctions mesurables ξt, t ∈ T definies sur (ET , ET )a valeurs dans (E, E) par ξt(ω) = ωt pour tout ω = (ωt)t∈t ∈ ET .

9

Page 11: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Soit X = Xt, t ∈ T un processus defini sur (Ω,F ,P) a valeurs dans (E, E). La mesure image PXest l’unique probabilite definie sur (E, E) par PX Π−1

I = PI pour tout I ∈ I, i.e.

PX

(∏t∈I

At × ET\I)

= P (Xt ∈ At, t ∈ I)

pour tout (At)t∈I ∈ EI . Quand on munit (ET , ET ) de la mesure image PX , on appelle la famillecanonique ξt, t ∈ T definies sur (ET , ET ,PX) le processus canonique associe a X.

L’existence et l’unicite de PX est donnee par le theoreme 1.2.3. On l’appellera aussi plus simplementla loi du processus X. Cette loi est donc entierement determinee par la donnee des repartitions finies.

1.5 Exemple (Suite de v.a. independantes):Soit (νn, n ∈ N) une suite de probabilites sur (E, E). Pour I ∈ I, on pose

νI =⊗n∈I

νn , (1.6)

ou ⊗ designe le produit tensoriel sur les probabilites (loi du vecteur a composantes independantes etde lois marginales donnees par les νn, ∈ I). Il est clair que l’on definit ainsi une famille (νI , I ∈ I)compatible, c’est-a-dire, verifiant la condition donnee par l’equation (1.3). Donc, si Ω = EN, Xn(ω) = ωnet F = σ(Xn, n ∈ N), il existe une unique probabilite P sur (Ω,F) telle que (Xn, n ∈ N) soit une suite dev.a. independantes de loi νn.

1.2.3 Stationnarite stricte d’un processus a temps discret

La notion de stationnarite joue un role central dans la theorie des processus aleatoires. On distingueci-dessous deux versions de cette propriete, la stationnarite stricte qui fait reference aux repartitionsfinies a l’invariance des repartitions finies par translation de l’origine des temps, et une notion plusfaible, la stationnarite au second ordre, qui porte sur l’invariance par translation des moments d’ordreun et deux (lorsque ceux-ci existent).

Definition 1.2.5 (Operateurs de decalage et de retard)On pose T = Z ou T = N. On note S et l’on appelle operateur de decalage ( Shift) l’applicationET → ET definie par

S(x) = (xt+1)t∈T pour tout x = (xt)t∈T ∈ ET .

Pour tout τ ∈ T , on definit Sτ par

Sτ (x) = (xt+τ )t∈T pour tout x = (xt)t∈T ∈ ET .

Definition 1.2.6 (Stationnarite stricte)On pose T = Z ou T = N. Un processus aleatoire Xt, t ∈ T est stationnaire au sens strict si X etS X ont meme loi, i.e. PSX = PX .

10

Page 12: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Par definition de la loi image on a PSX = PX si et seulement si

PSX Π−1I = PX Π−1

I

pour toute partie finie I ∈ I. Or PSX Π−1I = PX (ΠI S)−1 et ΠI S = ΠI+1, ou I+1 = t+1, t ∈ I.

On en conclut que Xt, t ∈ T est stationnaire au sens strict si et seulement si, pour toute partie finieI ∈ I,

PI = PI+1 .

On remarque aussi que la stationnaire au sens strict implique que X et Sτ X ont meme loi pour toutτ ∈ T et donc aussi PI = PI+τ , ou I + τ = t+ τ, t ∈ I.

1.6 Exemple (Processus i.i.d et transformations):Soit Z(t) une suite de variables aleatoires independantes et identiquement distribuees (i.i.d). Z(t) estun processus stationnaire au sens strict, car, pour toute partie finie ordonnee I = t1, < t2 < · · · < tnnous avons :

P(Z(t1) ∈ A1, · · · , Z(tn) ∈ An) =n∏j=1

P(Z(0) ∈ Aj)

Soient k un entier et g une fonction borelienne de Rk dans R. Il est facile de verifier que le processusaleatoire Xt defini par

Xt = g(Z(t), Z(t− 1), · · · , Z(t− k + 1))

est encore un processus aleatoire stationnaire au sens strict. Par contre, ce processus obtenu par transfor-mation n’est plus i.i.d dans la mesure ou, des que k ≥ 1, Xt, Xt+1, . . . , Xt+k−1 bien qu’ils aient la memedistribution marginale sont, en general, dependants car fonctions de variables aleatoires communes. Untel processus est dit k-dependant dans la mesure ou, par contre, τ ≥ k implique que Xt et Xt+τ sontindependants (ils dependent de deux groupes independants de k variables aleatoires).

1.2.4 Processus gaussiens

Definition 1.2.7 (Variable aleatoire gaussienne reelle)On dit que X est une variable aleatoire reelle gaussienne si sa loi de probabilite a pour fonctioncaracteristique :

φX(u) = E

eiuX

= exp(iµu− σ2u2/2)

ou µ ∈ R et σ ∈ R+.

On en deduit que E X = µ et que var(X) = σ2. Si σ 6= 0, la loi possede une densite de probabilitequi a pour expression :

pX(x) =1

σ√

2πexp

(−(x− µ)2

2σ2

)

Definition 1.2.8 (Vecteur gaussien reel)Un vecteur aleatoire reel de dimension n (X1, . . . , Xn) est un vecteur gaussien si toute combinaisonlineaire de X1, . . . , Xn est une variable aleatoire gaussienne reelle.

11

Page 13: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Notons µ le vecteur moyenne de (X1, . . . , Xn) et Γ la matrice de covariance. Par definition d’un vecteuraleatoire gaussien, pour tout u ∈ Rn, la variable aleatoire Y =

∑nk=1 ukXk = uTX 1 est une variable

aleatoire reelle gaussienne. Par consequent, sa loi est completement determinee par sa moyenne et savariance qui ont pour expressions respectives :

E Y =

n∑k=1

ukE Xk = uTµ et var(Y ) =

n∑j,k=1

ujukcov(Xj , Xk) = uTΓu

On en deduit l’expression, en fonction de µ et de Γ, de la fonction caracteristique de la loi de probabilited’un vecteur gaussien X(1), . . . , X(n) :

φX(u) = E

exp(iuTX)

= E exp(iY ) = exp

(iuTµ− 1

2uTΓu

)(1.7)

De plus si Γ est de rang plein n, alors la loi de probabilite de X possede une densite dont l’expressionest :

pX(x) =1

(2π)n/2√

det(Γ)exp

(−1

2(x− µ)TΓ−1(x− µ)

)Dans le cas ou Γ est de rang r < n, c’est a dire ou Γ possede n − r valeurs propres nulles, X setrouve, avec probabilite 1, dans un sous espace de dimension r de Rn, dans la mesure ou il existe r−ncombinaisons lineaires independantes ai telles que cov(aTi X) = 0.

Definition 1.2.9 (Processus gaussien reel)On dit qu’un processus reel X = Xt, t ∈ T est gaussien si, pour toute suite finie d’instants t1 <t2 < · · · < tn, (Xt1 , Xt2 , · · · , Xtn) est un vecteur gaussien.

D’apres (1.7), la famille des repartitions finies est donc caracterisee par la donnee de la fonctionmoyenne µ : t ∈ T 7→ µ(t) ∈ R et de la fonction de covariance γ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R.Reciproquement, donnons nous une fonction µ : t ∈ T 7→ m(t) ∈ R et une fonction de covarianceγ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R de type positif, c’est-a-dire telle que, pour tout n, toute suite(u1, · · · , un) et toute suite (t1, · · · , tn) on ait :

n∑j=1

n∑k=1

ujukγ(tj , tk) ≥ 0 (1.8)

On peut alors definir, pour I = t1 < · · · < tn, une probabilite gaussienne νI sur Rn par :

νIdef= Nn(µI ,ΓI) (1.9)

ou µI = (µ(t1), · · · , µ(tn)) et ΓI est la matrice positive d’elements γI(m, k) = γ(tm, tk), ou 1 ≤ m, k ≤n. La famille (νI , I ∈ I), ainsi definie, verifie les conditions de compatibilite et l’on a ainsi etabli,d’apres le theoreme 1.2.3, le resultat suivant :

1. Dans cet ouvrage, les vecteurs sont par convention identifies sous forme matricielle a des vecteurs colonnes etl’exposant T indique l’operateur de transposition des matrices.

12

Page 14: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Theoreme 1.2.10Soit r 7→ µ(t) une fonction et (s, t) 7→ γ(s, t) une fonction de type positif (verifiant l’equation (1.8)).Il existe un espace de probability (Ω,F ,P) et un processus aleatoire Xt, t ∈ T gaussien defini sur cetespace verifiant

µ(t) = E Xt et γ(s, t) = E (Xs − µ(s))(Xt − µ(t))

13

Page 15: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 2

Elements d’Analyse Hilbertienne

2.1 Definitions

Definition 2.1.1 (Espace pre-hilbertien)Soit H un espace vectoriel sur l’ensemble des nombres complexes C. L’espace H est appele pre-hilbertien si H est muni d’un produit scalaire :

〈·, ·〉 : x, y ∈ H ×H 7→ 〈x, y〉 ∈ C

qui verifie les proprietes suivantes :

(i) pour tout (x, y) ∈ H ×H, 〈x, y〉 = 〈y, x〉∗

(ii) pour tout (x, y) ∈ H ×H et tout (α, β) ∈ C× C, 〈αx+ βy, z〉 = α〈x, z〉+ β〈y, z〉(iii) pour tout x ∈ H, 〈x, x〉 ≥ 0, et 〈x, x〉 = 0 si et seulement si x = 0.

L’application :‖ ‖ : x ∈ H 7→

√〈x, x〉 ≥ 0

definit une norme pour tout vecteur x.

2.1 Exemple (Espace Rn):L’ensemble des vecteurs colonnes x = [x1 · · · xn]T , ou xk ∈ R, est un espace vectoriel dans lequel larelation :

〈x, y〉 =n∑k=1

xkyk

definit par un produit scalaire.

2.2 Exemple (Espace l2(Z)):L’ensemble des suites numeriques complexes xkk∈Z verifiant

∑∞k=−∞ |xk|2 <∞ est un espace vectoriel

sur C. On munit cet espace du produit interieur :

〈x, y〉 =

∞∑k=−∞

xky∗k ≤ (1/2)

∞∑k=−∞

(|xk|2 + |yk|2) <∞

On verifie aisement les proprietes (i-iii) de la definition 2.1.1. L’espace ainsi defini est donc un espacepre-Hilbertien, que l’on note l2(Z).

14

Page 16: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

2.3 Exemple (Fonctions de carre integrable):L’ensemble L2(T ) des fonctions boreliennes definies sur un intervalle T de R, a valeurs complexes et demodule de carre integrable par rapport a la mesure de Lebesgue (

∫T |f(t)|2dt <∞) est un espace vectoriel.

Considerons alors le produit interieur :

(f, g) ∈ L2(T )× L2(T ) 7→ 〈f, g〉 =

∫Tf(t)g∗(t)dt

On montre aisement que 〈f, g〉 <∞ ainsi que les proprietes (i) et (ii) de la definition 2.1.1. Par contre lapropriete (iii) n’est pas verifiee puisque :

〈f, f〉 = 0 6⇒ ∀t ∈ T f(t) = 0

En effet une fonction f qui est nulle sauf sur un ensemble de mesure nulle pour la mesure de Lebesgue,verifie 〈f, f〉 = 0. L’espace H muni du produit (f, g) n’est donc pas un espace pre-Hilbertienne. C’estpourquoi on definit l’ensemble L2(T ) des classes d’equivalence de L2(T ) pour la relation d’equivalencedefinie par l’egalite presque partout entre deux fonctions. Par construction, L2(T ) est alors un espacepre-Hilbertien.

2.4 Exemple (Variables aleatoires de variance finie):De facon similaire a l’exemple 2.3, pour tout espace de probabilite (Ω,F ,P), on definit H = L2(Ω,F ,P)(note L2(Ω) s’il n’y a pas de confusion possible) comme l’ensemble des v.a. X definies sur (Ω,F ,P) avaleurs complexes telles que

E[|X|2] <∞ .

(On dit que X a une “variance finie”.) Sur cet ensemble, on definit

(X,Y ) ∈ L2(Ω)× L2(Ω) 7→ 〈X,Y 〉 = E[XY ∗] .

Pour les memes raisons que dans l’exemple 2.3, on definit l’espace pre-Hilbertien L2(Ω,F ,P) (ou L2(Ω))comme l’ensemble des classes d’equivalences de L2(Ω) pour la relation d’equivalence definie par l’egalitepresque sure entre deux v.a. Cet exemple se generalise en fait a tout espace mesure (Ω,F , µ) en posant

(f, g) ∈ L2(Ω,F , µ)× L2(Ω,F , µ) 7→ 〈f, g〉 =

∫f g∗dµ .

On montre aisement les proprietes suivantes :

Theoreme 2.1.2Pour tout x, y ∈ H ×H, nous avons :

(i) Inegalite de Cauchy-Schwarz : |〈x, y〉| ≤ ‖x‖‖y‖,(ii) Inegalite triangulaire : |‖x‖ − ‖y‖| ≤ ‖x− y‖ ≤ ‖x‖+ ‖y‖,

(iii) Identite du parallelogramme :

‖x+ y‖2 + ‖x− y‖2 = 2‖x‖2 + 2‖y‖2

Definition 2.1.3 (Convergence dans H)Soit xn une suite de vecteurs et x un vecteur d’un espace H muni d’un produit scalaire. On dit que xntend vers x si et seulement si ‖xn − x‖ → 0 quand n→ +∞. On note xn → x.

15

Page 17: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Proposition 2.1.4Si dans un espace de Hilbert la suite xn → x, alors xn est bornee.

Demonstration D’apres l’inegalite triangulaire, on a :

‖xn‖ = ‖(xn − x) + x‖ ≤ ‖xn − x‖+ ‖x‖

Proposition 2.1.5 (Continuite du produit scalaire)Soit xn → x et yn → y deux suites convergentes de vecteurs d’un espace pre-hilbertien H. Alors quandn→ +∞ : 〈xn, yn〉 → 〈x, y〉. En particulier, si xn → x, ‖xn‖ → ‖x‖.

Demonstration D’apres l’inegalite triangulaire puis l’inegalite de Cauchy-Schwarz, nous avons :

〈x, y〉 − 〈xn, yn〉 = 〈(x− xn) + xn, (y − yn) + yn〉 − 〈xn, yn〉= 〈x− xn, y − yn〉+ 〈x− xn, yn〉+ 〈xn, y − yn〉≤ ‖xn − x‖‖yn − y‖+ ‖xn − x‖‖yn‖+ ‖yn − x‖‖xn‖

Il suffit ensuite d’evoquer la convergence et la bornitude des suites xn et yn.

Definition 2.1.6 (Suite de Cauchy)Soit xn une suite de vecteurs d’un espace pre-hilbertien H. On dit que xn est une suite de Cauchy siet seulement si :

‖xn − xm‖ → 0

quand n,m→ +∞.

Notons qu’en vertu de l’inegalite triangulaire toute suite convergente est une suite de Cauchy. Lareciproque est fausse : une suite de Cauchy peut ne pas etre convergente. En voici un contre-exemple :

2.5 Exemple (Suite de Cauchy non convergente):Soit C([−π, π]) l’espace des fonctions continues sur [−π, π]. L’espace C([−π, π]), muni du produit∫ π−π f(x)g∗(x)dx, est un espace pre-hilbertien. Considerons la suite de fonctions :

fn(x) =n∑k=1

1

kcos(kx)

Les fonctions fn(x), qui sont indefiniment continument differentiables, appartiennent a C(−π, π). Montronsque cette suite est une suite de Cauchy. En effet, pour m > n, on a :

‖fn − fm‖2 = π

m∑k=n+1

1

k2−→ 0 quand (n,m)→∞

D’autre part on montre aisement que la limite de cette suite f∞(x) =∑∞

k=1 k−1 cos(kx) = log | sin(x/2)|

n’est pas continue et n’appartient donc pas a C([−π, π]).

16

Page 18: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Definition 2.1.7 (Espace de Hilbert)On dit qu’un espace vectoriel est complet si toute suite de suite de Cauchy de H converge dans H. Ondit H est un espace de Hilbert si H est pre-hilbertien et complet.

Proposition 2.1.8 (Espaces L2)Pour tout espace mesurable (Ω,F , µ), L’espace L2(Ω,F , µ)(voir l’exemple 2.4) des fonctions de carreintegrable pour la mesure µ est un espace de Hilbert.

Definition 2.1.9 (Sous espace vectoriel)Un sous-espace E d’un espace vectoriel H est un sous-ensemble de H tel que, pour tout x, y ∈ E ettout scalaire α, β, αx+ βy ∈ E. Un sous-espace vectoriel est dit propre si E 6= H.

Definition 2.1.10 (Sous-espace ferme)Soit E un sous-espace d’un espace de Hilbert H. On dit que E est ferme, si toute suite xn de E, quiconverge, converge dans E.

2.6 Exemple (Contre-exemple):Soit L2([−π, π]) l’espace de Hilbert des fonctions de carre integrable pour la mesure de Lebesgue sur[−π, π]. Comme le montre l’exemple 2.5, l’ensemble des fonctions continues sur [−π, π] est un sous-espacevectoriel de L2([−π, π]) mais n’est pas ferme.

Definition 2.1.11 (Sous espace engendre par un sous-ensemble)Soit X un sous-ensemble de H. Nous notons span (X ) le sous-espace vectoriel des combinaisons

lineaires finies d’elements de X et span (X ) la fermeture de span (X ) dans H.

Definition 2.1.12 (Orthogonalite)Deux vecteurs x, y ∈ H sont dit orthogonaux, si 〈x, y〉 = 0, ce que nous notons x ⊥ y. Si S est unsous-ensemble de H, la notation x ⊥ S, signifie que x ⊥ s pour tout s ∈ S. Nous notons S ⊥ T sitout element de S est orthogonal a tout element de T .

Supposons qu’il existe deux sous-espaces A et B tels que H = A+B, dans le sens ou, pour tout vecteurh ∈ H, il existe a ∈ A et b ∈ B, tel que h = a+ b. Si en plus A ⊥ B nous dirons que H est la sommedirecte de A et B, ce que nous notons H = A⊕ B.

Definition 2.1.13 (Complement orthogonal)Soit E un sous-ensemble d’un espace de Hilbert H. On appelle ensemble orthogonal de E, l’ensembledefini par :

E⊥ = x ∈ H : ∀y ∈ E 〈x, y〉 = 0

2.2 Projection et principe d’orthogonalite

Le theoreme suivant, appele theoreme de projection, joue un role central en analyse Hilbertienne.

Theoreme 2.2.1Soit E est un sous-espace ferme d’un espace de Hilbert H et soit x un element quelconque de H, alors :

17

Page 19: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(i) il existe un unique element note proj (x| E) ∈ E tel que :

‖x− proj (x| E) ‖ = infw∈E‖x− w‖

(ii) proj (x| E) ∈ E et ‖x − proj (x| E) ‖ = infw∈E ‖x − w‖ si et seulement si proj (x| E) ∈ E etx− proj (x| E) ⊥ E.

Demonstration (i) Soit x ∈ H. On note h = infw∈E ‖x − w‖ ≥ 0. Alors il existe une suitew1, w2, · · · , de vecteurs de E tels que :

limm→+∞

‖x− wm‖2 = h2 ≥ 0 (2.1)

L’identite du parallelogramme, ‖a−b‖2 +‖a+b‖2 = 2‖a‖2 +2‖b‖2 avec a = wm−x et b = wn−x,montre que :

‖wm − wn‖2 + ‖wm + wn − 2x‖2 = 2‖wm − x‖2 + 2‖wn − x‖2

Comme (wm +wn)/2 ∈ E , nous avons ‖wm +wn − 2x‖2 = 4‖(wm +wn)/2− x‖2 ≥ 4h2. D’apres2.1, pour tout ε > 0,il existe N tel que et ∀m,n > N :

‖wm − wn‖2 ≤ 2(h2 + ε) + 2(h2 + ε)− 4h2 = 4ε.

qui montre que wn, n ∈ N est une suite de Cauchy et donc que la suite wn, n ∈ N tendvers une limite dans E , puisque l’espace E est ferme. On note y cette limite. On en deduit,par continuite de la norme, que ‖y − x‖ = h. Montrons que cet element est unique. Supposonsqu’il existe un autre element z ∈ E tel que ‖x − z‖2 = ‖x − y‖2 = h2. Alors l’identite duparallelogramme donne :

0 ≤ ‖y − z‖2 = −4‖(y + z)/2− x‖2 + 2‖x− y‖2 + 2‖x− z‖2 ≤ −4h2 + 2h2 + 2h2 = 0

ou nous avons utilise que (y + z)/2 ∈ E et que ‖(y + z)/2 − x‖2 ≥ h2. Il s’en suit que y = z. xest appele la projection orthogonale de x sur E .

(ii) Soit x la projection orthogonale de x sur E . Alors, si il existe u ∈ E tel que x− u ⊥ E , on peutecrire :

‖x− x‖2 = 〈x− u+ u− x, x− u+ u− x〉 = ‖x− u‖2 + ‖u− x‖2 + 2〈u− x, x− u〉= ‖x− u‖2 + ‖u− x‖2 + 0 ≥ ‖x− u‖2

et donc u = x. Reciproquement supposons que u ∈ E et x − u 6⊥ E . Alors choisissons y ∈ E telque ‖y‖ = 1 et tel que c = 〈x− u, y〉 6= 0 et notons x = u+ cy ∈ E . On a :

‖x− x‖2 = 〈x− u+ u− x, x− u+ u− x〉 = ‖x− u‖2 + ‖u− x‖2 + 2〈u− x, x− u〉= ‖x− u‖2 + c2 − 2c〈y, x− u〉 = ‖x− u‖2 − c2 < ‖x− u‖2

Par consequent x ∈ E est strictement plus proche de x que ne l’est u.

18

Page 20: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Proposition 2.2.2Soit H un espace de Hilbert et proj ( ·| E) la projection orthogonale sur le sous-espace ferme E. On a :

1. l’application x ∈ H 7→ proj (x| E) ∈ E est lineaire :

∀(α, β) ∈ C× C, proj (αx+ βy| E) = α proj (x| E) + β proj (y| E) .

2. ‖x‖2 = ‖ proj (x| E) ‖2 + ‖x− proj (x| E) ‖2 (Pythagore),

3. La fonction proj ( ·| E) : H → H est continue,

4. x ∈ E si et seulement si proj (x| E) = x,

5. x ∈ E⊥ si et seulement si proj (x| E) = 0,

6. Soient E1 et E2 deux sous espaces vectoriels fermes de H, tels que E1 ⊂ E2. Alors :

∀x ∈ H, proj (proj (x| E2)| E1) = proj (x| E1) .

7. Soient E1 et E2 deux sous-espaces vectoriels fermes de H, tels que E1 ⊥ E2. Alors :

∀x ∈ H, proj (x| E1 ⊕ E2) = proj (x| E1) + proj (x| E2) .

2.7 Exemple (Projection sur un vecteur):Soit H un espace de Hilbert, C = span (v) le sous-espace engendre par un vecteur v ∈ H et x un vecteurquelconque de H. On a alors proj (x| C) = αv avec α = 〈x, v〉/‖v‖2. Si on note ε = x − proj (x| C), ona :

‖ε‖2 = ‖x‖2(1− ‖ρ‖2

)ou ρ =

〈x, v〉‖x‖‖v‖

avec |ρ| ≤ 1

Appliquons ce resultat a H = Cn et au vecteur v(λ0) de composantes vt = n−1/2eiλ0t ou t ∈ 1, . . . , net ou la pulsation de Fourier λ0 ∈ (−π, π). On verifie que ‖v(λ0)‖ = 1. Soit x = (x1, . . . , xn)T un vecteurquelconque de Cn. La projection orthogonale de x sur span (v(λ0)) s’ecrit αv(λ0) avec :

α =n∑t=1

xtv∗t =

1√n

n∑t=1

xte−iλ0t

qui est la transformee de Fourier a temps discret de la suite xt calculee precisement a la pulsation λ0.

2.8 Exemple (Droite de regression):On est parfois conduit a chercher une relation lineaire entre deux suites de valeurs xt1≤t≤n et yt1≤t≤n.Cela revient a trouver la suite yt = α1 + α2xt qui s’approche quadratiquement au plus pres de la suiteyt. D’apres le theoreme de projection, il suffit dexprimer que le vecteur y ∈ Rn de composantes yn est laprojection orthogonale de y = (y1, . . . , yn)T sur E = span (u, x) ou u = (1, . . . , 1)T et x = (x1, . . . , xn)T .Par consequent α1 et α2 sont solutions du systeme de deux equations :

〈y − (α1 + α2x), 1〉 = 0 et 〈y − (α1 + α2x), x〉 = 0

qui s’ecrit encore : [n

∑t xt∑

t xt∑

t x2t

] [α1

α2

]=

[ ∑t yt∑t xtyt

]Si la matrice est inversible la solution est unique.

19

Page 21: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

2.9 Exemple (Modele lineaire et methode des moindres carres):On considere, pour 1 ≤ t ≤ n, la suite d’observations :

xt =P∑k=1

at,kθk + zt

ou at,k, avec 1 ≤ k ≤ P , 1 ≤ t ≤ n et n > P , sont des valeurs connues. θk est une suite deparametres a estimer et zt est un terme d’incertitude qui modelise par exemple des erreurs de mesure. Avecdes notations matricielles evidentes on peut ecrire X = Aθ+Z. On note A le sous-espace de Rn engendrepar les colonnes de A. L’estimation, dite des moindres carres, consiste a trouver θ qui minimise

∑nt=1 z

2t .

Ce probleme peut alors se formaliser de la facon suivante : determiner le vecteur de A le plus proche deX. La solution est la projection orthogonale proj (X| A) qui, d’apres le point ii du theoreme de projection,verifie :

AT (X − proj (X| A)) = 0⇔ AT proj (X| A) = ATX

On sait que le vecteur proj (X| A) est unique. Par contre la resolution, par rapport a θ, de l’equationproj (X| A) = Aθ n’a pas necessairement une solution unique. Elle depend du rang de la matrice A.

– Si A est de rang plein P , ATA est inversible et θ = (ATA)−1ATX qui est alors unique.– Si A est de rang strictement inferieur a P , alors il existe une infinite de valeurs de θ telle queATAθ = ATX. Elles different toutes par un vecteur u de l’espace nul de A defini par Au = 0.

Theoreme 2.2.3Si E est un sous-ensemble d’un espace de Hilbert H, alors E⊥ est un sous-espace ferme.

Demonstration Soit (xn)n≥0 une suite convergente d’elements de E⊥. Notons x la limite de cettesuite. Par continuite du produit scalaire nous avons, pour tout y ∈ E ,

〈x, y〉 = limn→∞

〈xn, y〉 = 0

et donc x ∈ E⊥.

2.3 Bases Hilbertiennes

Definition 2.3.1 (Famille orthonormale)Soit E = ej ; j ∈ T un sous ensemble de H. On dit que E est une famille orthonormale ssi 〈ei, ej〉 = 1si i = j et 0 sinon.

Proposition 2.3.2 (Inegalite de Bessel)Si x est un vecteur d’un espace de Hilbert H et si E = e1, · · · , ek est une famille orthonormale finie,alors :

k∑i=

|〈x, ei〉|2 ≤ ‖x‖2

20

Page 22: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Notons E = span (E) le sous-espace engendre par les vecteurs e1, · · · , ek. Nousavons ‖ proj (x| E) ‖ ≤ ‖x‖. On verifie aisement que proj (x| E) =

∑ki=1〈x, ei〉ei et que ‖ proj (x| E) ‖2 =∑k

i=1 |〈x, ei〉|2. Remarquons en effet, pour tout j ∈ 1, . . . , k,

〈x−k∑i=1

〈x, ei〉ei, ej〉 = 〈x, ej〉 − 〈x, ej〉 = 0 .

Definition 2.3.3 (Famille orthonormale complete)Soit E = ej ; j ∈ T une famille orthonormale de H. On dit que E est une famille orthonormale

complete ssi span (E) = H.

Lemme 2.3.4(i) Soit (Mn) une suite croissante de sous-espaces vectoriels (s.e.v.) fermes d’un espace de HilbertH et notons M−∞ =

⋂nMn. Alors, pour tout h ∈ H, nous avons

proj (h|M−∞) = limn→−∞

proj (h|Mn)

(ii) Soit M∞ =⋃n∈ZMn. Alors, pour tout h ∈ H,

proj (h|M∞) = limn→∞

proj (h|Mn) .

(iii) Soit ek, k ∈ N une famille orthonormale de h, ej ⊥ ek, for j 6= k, ‖ej‖ = 1. Soit En =

span (el, 0 ≤ l ≤ n) et E∞ =⋃n≥0En. Alors

proj (h| E∞) =∞∑k=0

〈h, ek〉ek .

Demonstration (a) CommeMn est un s.e.v. ferme de H et doncM−∞ est un s.e.v. ferme de H. Letheoreme de projection 2.2.1 prouve que proj (h|M−∞) existe. Pour m < n, definissons Mn Mm

le complement orthogonal de Mm dans Mn, c’est a dire l’ensemble des vecteurs x ∈ Mn tel quex ⊥Mm. Mn Mm est un s.e.v ferme de H. Notons que

proj (h|Mn Mm) = proj (h|Mn)− proj (h|Mm) .

On a, pour tout m ≥ 0,

∞∑n=−m

‖ proj (h|Mn Mn−1) ‖2 = ‖ proj (h|M0 M−m) ‖2 ≤ ‖h‖2 <∞

et donc la suite proj (h|Mn) , n = 0,−1,−2, . . . est une suite de Cauchy. Comme H est com-

plet, proj (h|Mn) converge dans H. Notons zdef= limm→−∞ proj (h|Mn). Il reste a prouver que

z = proj (h|M−∞). En appliquant le theoreme de projection 2.2.1, nous devons donc demontrerque (i) z ∈ M−∞ et (ii) h − z ⊥ M−∞. Comme proj (h|Mn) ∈ Mp pour tout n ≤ p, nous avonsdonc limn→−∞ proj (h|Mn) ∈ Mp pour tout p et donc z ∈ M−∞, ce qui etablit (i). Pour prou-ver (ii), prenons p ∈ M−∞. Nous avons p ∈ Mn pour tout n ∈ Z, et donc, pour tout n ∈ Z,

21

Page 23: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

〈h− proj (h|Mn) , p〉 = 0 et (ii) decoule de la continuite du produit scalaire. La preuve du point [(b)]est similaire et est laissee au lecteur a titre d’exercice Nous prouvons finalement le point [(c)]. Enappliquant [(b)], nous avons

proj (h| E∞) = limn→∞

proj (h| En) .

On verifie aisement que

proj (h| En) =

n∑k=1

〈h, ek〉ek .

Notons en effet que proj (h| En) ∈ En et, pour tout k ∈ 1, · · · , n,

〈h− proj (h| En) , ek〉 = 〈h, ek〉 − 〈h, ek〉 = 0.

On conclut la preuve en combinant les deux resultats precedents.

Dans les espaces de Hilbert le fait qu’il existe une famille orthonormale complete denombrable joue unrole important. Ce qui conduit a la definition suivante.

Definition 2.3.5 (Espace de Hilbert separable)On dit qu’un espace de Hilbert est separable ssi il existe une famille orthonormale completedenombrable.

La plupart des espaces de Hilbert que nous rencontrerons seront separables. En particulier le sous-espace ferme engendre a partir d’une famille denombrable d’un espace de Hilbert, que celui-ci soitseparable ou non separable, est separable.

Theoreme 2.3.6Soit H un espace de Hilbert separable et soit ei; i ∈ N une famille orthonormale completedenombrable. Alors :

1. Pour tout ε > 0, il existe un entier k et une suite c0, · · · , ck telle que ‖x−∑k

i=0 ciei‖ ≤ ε.2. x =

∑+∞i=0 〈ei, xi〉ei (serie de Fourier),

3. ‖x‖2 =∑+∞

i=0 |〈ei, xi〉|2 (egalite de Parseval),

4. (x, y) =∑+∞

i=0 〈x, ei〉〈ei, y〉,5. x = 0 si et seulement si 〈ei, x〉 = 0 pour tout i ∈ N.

22

Page 24: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 3

Processus stationnaires au second ordre

3.1 Processus du second ordre

On a vu dans l’exemple 2.4 que l’espace L2(Ω) des v.a. aleatoires de variance finie est un espace deHilbert. Pour profiter des proprietes de ces espaces il est donc naturel de travailler sur des processusfaisant intervenir des v.a. de cet espace.

Definition 3.1.1 (Processus du second ordre)Le processus X = Xt, t ∈ T a valeurs dans Cd est dit du second ordre, si E

‖Xt‖2

< ∞, ou ‖x‖

est la norme hermitienne de x ∈ Cd.

Notons que la moyenne µ(t) = E Xt est un vecteur de dimension d dependant de t et que lafonction d’autocovariance definie en utilisant l’exposant H pour indiquer l’operation de transpositionet conjugaison par

Γ(s, t) = cov(Xs, Xt) = E

(Xs − µ(s))(Xt − µ(t))H,

est une matrice de dimension d× d dependant a la fois de s et de t.

Proposition 3.1.2Pour un processus du second ordre on a :

1. Γ(s, s) ≥ 0, l’egalite ayant lieu si et seulement si Xs est presque surement egale a sa moyenne.

2. Symetrie hermitienneΓ(s, t) = Γ(t, s)H (3.1)

3. Type positifPour tout n, pour toute suite d’instants (t1 < t2 < · · · < tn) et pour toute suite de vecteurscomplexes (a1, · · · , an) de dimension d, on a :∑

1≤k,m≤naHk Γ(tk, tm)am ≥ 0 (3.2)

Demonstration Formons la combinaison lineaire Y =∑n

k=1 aHk Xtk . Y est une variable aleatoire

complexe. Sa variance, qui est positive, s’ecrit

var(Y ) = E|Y − E Y |2

≥ 0

23

Page 25: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

On note Xct = Xt − E Xt le processus centre. En developpant var(Y ) en fonction de Xc

tk, il vient :

var(Y ) = E

n∑k=1

λHk Xctk

n∑m=1

XcTtkλk

=

∑1≤k,m≤n

λHk Γ(tk, tm)λm

ce qui etablit (3.2).

Dans le cas scalaire (d = 1), on note en general γ(s, t) la covariance, en reservant la notation Γ(s, T )au cas des processus vectoriels (d > 1).

3.2 Covariance d’un processus stationnaire au second ordre

On definit la stationnarite au second ordre en ne retenant que les proprietes du second ordre(moyenne et covariance) d’un processus stationnaire au sens stricte indexe par Z. Cela donne ladefinition suivante.

Definition 3.2.1 (Stationnarite au second ordre)Soit µ ∈ Cd et Γ : Z → Cd×d. Un processus Xt, t ∈ Z a valeurs dans Cd est dit stationnaire ausecond ordre (ou faiblement stationnaire) de moyenne µ et de fonction d’auto-covariance Γ si :

– X est un processus du second ordre, i.e. E‖Xt‖2

< +∞,

– pour tout t ∈ Z, E Xt = µ,– pour tout couple (s, t) ∈ Z× Z, cov(Xs, Xt) = Γ(t− s).

On remarque qu’un processus Xt, t ∈ Z a valeurs dans Cd est stationnaire au second ordrede moyenne µ et de fonction d’auto-covariance Γ si et seulement si pour tout λ ∈ Cd, le processusλHXt, t ∈ Z a valeurs dans C est stationnaire au second ordre de moyenne λHµ et de fonctiond’auto-covariance λHΓλ. L’etude des processus stationnaires au second ordre peut donc se restreindreau cas d = 1 sans grande perte de generalite.

3.2.1 Proprietes

Proposition 3.2.2La fonction d’autocovariance γ : Z → C d’un processus stationnaire au second ordre a valeurs com-plexes verifie les proprietes suivantes qui sont une consequence directe de la proposition 3.1.2.

1. Symetrie hermitienne : Pour tout h ∈ Z,

γ(−h) = γ∗(h)

2. caractere positif : Pour tout entier n ≥ 1 et tout vecteur (a1, · · · , an) de valeurs complexes,

n∑k=1

n∑j=1

a∗kγ(k − j)aj ≥ 0

24

Page 26: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Ces proprietes decoulent immediatement des proprietes de la fonction d’autocovariance d’un processus.La matrice de covariance de n valeurs consecutives X1, . . . , Xn du processus est donc hermitiennepositive. Elle possede de plus une structure particuliere, dite de Toeplitz, caracterisee par le fait que(Γn)ij = γ(i− j). On obtient une matrice de la forme

Γn = E

[(X1 − µX) . . . (Xn − µX)]T [(X1 − µX)∗ . . . (Xn − µX)∗]

=

γ(0) γ(1) · · · γ(n− 1)γ∗(1) γ(0) · · · γ(n− 2)

...γ∗(n− 1) γ∗(n− 2) · · · γ(0)

(3.3)

Definition 3.2.3 (Fonction d’autocorrelation)Pour un processus stationnaire, on appelle fonction d’autocorrelation ρ(h) = γ(h)/γ(0). Il s’agit d’unequantite normalisee dans le sens ou ρ(1) = 1 et |ρ(k)| ≤ 1.

En effet, l’inegalite de Cauchy-Schwarz (voir le theoreme 2.1.2) appliquee a γ(k) implique

|γ(h)| = |E (Xt+h − µX)(Xt − µX)∗| ≤√

E |Xt+h − µX |2E |Xt − µX |2 = γ(0)

la derniere inegalite decoulant de l’hypothese de stationnarite. Attention, certaines references (livres etpublications), en general anciennes, utilisent (incorrectement) le terme de “fonction d’autocorrelation”pour γ(h). Dans la suite de ce document, le terme autocorrelation est reservee a la quantite normaliseeρ(h).

3.1 Exemple (Processus retourne temporel):Soit Xt un processus aleatoire stationnaire au second ordre a valeurs reelles de moyenne µX et de fonctiond’autocovariance γX(h). On note Xr

t = X−t le processus retourne temporel. Alors Xrt est un processus

stationnaire au second ordre de meme moyenne et de meme fonction d’autocovariance que le processusXt. En effet on a :

E Xrt = E X−t = µX

cov(Xrt+h, X

rt ) = cov(X−t−h, X−t) = γX(−h) = γX(h)

Definition 3.2.4 (Bruit blanc)On appelle bruit blanc un processus aleatoire stationnaire au second ordre a valeurs reelles, centre, defonction d’autocovariance, γ(s, t) = γ(t− s) = σ2δt,s. On le notera Xt ∼ BB(0, σ2).

Definition 3.2.5 (Bruit blanc fort)On appelle bruit blanc fort une suite de variables aleatoires Xt, centrees, independantes et identi-quement distribuees (i.i.d.) de variance E

X2t

= σ2 <∞. On le notera Xt ∼ IID(0, σ2).

Par definition si Xt ∼ IID(0, σ2), E Xt = 0, EX2t

= σ2 et pour tout h 6= 0, E Xt+hXt =

E Xt+hE Xt = 0. Xt est donc egalement stationnaire au second ordre, de fonction d’autoco-variance γ(s, t) = σ2δ(t − s). La structure de bruit blanc fort est clairement plus contraignante quecelle de simple bruit blanc. En general, il est tout a fait inutile de faire un telle hypothese lorsque l’on

25

Page 27: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

s’interesse a des processus stationnaires au second ordre. Il arrivera cependant dans la suite que nousadoptions cette hypothese plus forte afin de simplifier les developpements mathematiques. Notons quedans le cas d’un processus gaussienne, ces deux notions sont confondues puisque la loi gaussienne estcompletement caracterisee par les moments du premier et du second ordre (un bruit blanc gaussienest donc egalement un bruit blanc fort).

3.2 Exemple (Processus MA(1)):Soit Xt le processus stationnaire au second ordre defini par :

Xt = Zt + θZt−1 (3.4)

ou Zt ∼ BB(0, σ2) et θ ∈ R. On verifie aisement que E Xt = 0 et que :

γ(t, s) =

σ2(1 + θ2) t = sσ2θ |t− s| = 10 |t− s| > 1

Le processus Xt est donc bien stationnaire au second ordre. Un tel processus est appele processus a moyenneajuste d’ordre 1. Cette propriete se generalise, sans difficulte, a un processus MA(q). Nous reviendrons plusen detail, paragraphe 4.2, sur la definition et les proprietes de ces processus.

3.3 Exemple (Processus harmonique):Soient Ak1≤k≤N N variables aleatoires verifiant cov(Ak, Al) = σ2

kδ(k − l) et Φk1≤k≤N , N variablesaleatoires independantes et identiquement distribuees (i.i.d), de loi uniforme sur [−π, π], et independantesde Ak1≤k≤N . On definit :

Xt =N∑k=1

Ak cos(λkt+ Φk) (3.5)

ou λk ∈ [−π, π] sont N pulsations. Le processus Xt est appele processus harmonique. On verifie aisementque E Xt = 0 et que sa fonction d’autocovariance est donnee par :

γ(h) = E Xt+hXt =1

2

N∑k=1

σ2k cos(λkh)

Le processus harmonique est donc stationnaire au second ordre.

3.4 Exemple (Marche aleatoire):Soit St le processus defini sur t ∈ N par St = X0 + X1 + · · · + Xt, ou Xt est un bruit blanc. Un telprocessus est appele une marche aleatoire. On en deduit que E St = 0, que γ(t, t) = E

X2t

= tσ2 et

que, pour h > 0, on a :

γ(t+ h, t) = E (St +Xt+1 + · · ·+Xt+h)St = tσ2

Le processus St n’est donc pas stationnaire au second ordre.

26

Page 28: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

3.5 Exemple:Nous allons montrer que la suite definie, pour h ∈ Z, par :

R(h) =

1 h = 0,ρ |h| = 10 |h| ≥ 2

est la fonction d’autocovariance d’un processus stationnaire au second ordre si et seulement si |ρ| ≤ 1/2.Nous avons deja montre exemple 3.2 que la fonction d’autocovariance d’un processus MA(1) est donneepar :

γ(h) =

σ2(1 + θ2) pour h = 0σ2θ pour |h| = 10 pour |h| > 1

La suite R(h) est donc la fonction d’autocovariance d’un processus MA(1) si et seulement si σ2(1+θ2) = 1et σ2θ = ρ. Lorsque |ρ| ≤ 1/2, ce systeme d’equations admet comme solution :

θ = (2ρ)−1(1±√

1− 4ρ2) et σ2 = (1 + θ2)−1

Lorsque |ρ| > 1/2, ce systeme d’equations n’admet pas de solution reelles et la suite R(h) n’est donc pasla fonction d’autocovariance d’un processus MA(1). On verifie facilement que R(h) ne verifie pas dans cecas la condition de positivite (en prenant ak = (−1)k pour ρ > 1/2 et ak = 1 dans le cas oppose). Pour|ρ| > 1/2, R(h) n’est donc pas une sequence d’autocovariance.

3.2.2 Interpretation de la fonction d’autocovariance

Dans les exemples precedents, nous avons ete amene a evaluer la fonction d’autocovariance deprocessus pour quelques exemples simples de series temporelles. Dans la plupart des problemes d’interetpratique, nous ne partons pas de modeles de serie temporelle definis a priori, mais d’observations,x1, · · · , xn associees a une realisation du processus. Afin de comprendre la structure de dependanceentre les differentes observations, nous serons amenes a estimer la loi du processus, ou du moins descaracteristiques de ces lois. Pour un processus stationnaire au second ordre, nous pourrons, a titred’exemple, estimer sa moyenne par la moyenne empirique :

µn = n−1n∑k=1

xk

et les fonctions d’autocovariance et d’autocorrelation par les fonctions d’autocorrelation et d’autoco-variance empiriques

γ(h) = n−1

n−|h|∑k=1

(xk − µn)(xk+|h| − µn) et ρ(h) = γ(h)/γ(0)

Lorsqu’il est a priori raisonnable de penser que la serie consideree est stationnaire au second ordre,la moyenne empirique, la fonction d’autocovariance empirique et la fonction d’autocorrelation em-pirique sont de “bons” estimateurs, dans un sens que nous preciserons chapitre 7. L’analyse de la

27

Page 29: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

fonction d’autocovariance empirique est un element permettant de guider le choix d’un modele ap-proprie pour les observations. Par exemple, le fait que la fonction d’autocovariance empirique soitproche de zero pour tout h 6= 0 (proximite qu’il faudra definir dans un sens statistique precis) in-dique par exemple qu’un bruit blanc est un modele adequat pour les donnees. La figure 3.1 representeles 100 premieres valeurs de la fonction d’autocorrelation empirique de la serie des battements car-diaques representes figure 1.1. On observe que cette serie est positivement correlee c’est-a-dire que lesfonctions coefficients d’autocorrelation sont positifs et significativement non nuls. Nous avons, a titrede comparaison, represente aussi la fonction d’autocorrelation empirique d’une trajectoire de memelongueur d’un bruit blanc gaussien. Une forte correlation peut etre interpretee comme l’indice d’une

0 50 1000

0.2

0.4

0.6

0.8

1

0 50 100−0.2

0

0.2

0.4

0.6

0.8

1

Figure 3.1 – Courbe de gauche : fonction d’autocorrelation empirique de laserie des battements cardiaques (figure 1.1). Courbe de droite : fonction d’au-tocorrelation empirique d’une trajectoire de meme longueur d’un bruit blancgaussien.

dependance lineaire. Ainsi la figure 3.2 montre que le fait que ρ(1) = 0.966 pour la serie des batte-ments cardiaques se traduit par une tres forte predictabilite de Xt+1 en fonction de Xt (les couplesde points successifs s’alignent quasiment sur une droite). Nous montrerons au chapitre 5, que dans untel contexte, E (Xt+1 − µ)− ρ(1)(Xt − µ) = (1− ρ2)cov(Xt), c’est a dire, compte tenu de la valeurestimee pour ρ(1), que la variance de “l’erreur de prediction” Xt+1 − [µ + ρ(1)(Xt − µ)] est 15 foisplus faible que celle du signal original. L’indice S&P500 trace (fig. 1.4) presente un cas de figureplus difficile, d’une part parce que la serie de depart ne saurait etre tenue pour stationnaire et qu’ilnous faudra considerer la serie des evolutions journalieres ; d’autre part, parce que selon le choix de latransformation des donnees considerees, la serie transformee presente ou non des effets de correlation.On definit tout d’abord les log-retours de l’indice S&P500 comme les differences des logarithmes del’indice a deux dates successives :

Xt = log(St)− log(St−1) = log

(1 +

St − St−1

St−1

)La serie des log-retours de la serie S&P 500 est representee figure 3.3. Les coefficients d’autocorrelationempiriques de la serie des log-retours sont representes figure 3.4. On remarque qu’ils sont approximati-vement nuls pour h 6= 0 ce qui suggere de modeliser la serie des log-retours par un bruit blanc (une suite

28

Page 30: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

70 75 80 85 90 95 100 105 11070

75

80

85

90

95

100

105

110

Xt

Xt+

1

Figure 3.2 – Xt+1 en fonction de Xt pour la serie des battements cardiaquesde la figure 1.1). Les tirets figurent la meilleure droite de regression lineaire deXt+1 sur Xt.

500 1000 1500 2000 2500−0.1

−0.05

0

0.05

0.1

Figure 3.3 – Log-Retour de la serie S&P 500 (figure 1.4).

29

Page 31: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 20 40 60 80 100−0.2

0

0.2

0.4

0.6

0.8

1

1.2

Figure 3.4 – Fonction d’autocorrelation empirique de la serie des log-retoursde l’indice S&P 500.

de variables decorrelees). Il est interessant d’etudier aussi la serie des log-retours absolus, A(t) = |Xt|.

0 20 40 60 80 1000

0.2

0.4

0.6

0.8

1

Figure 3.5 – Fonction d’autocorrelation empirique de la serie des valeursabsolues des log-retours de l’indice S&P 500.

On peut, de la meme facon, determiner la suite des coefficients d’autocorrelation empirique de cetteserie, qui est representee dans la figure 3.5. On voit, qu’a l’inverse de la serie des log-retours, la seriedes valeurs absolues des log-retours est positivement correlee, les valeurs d’autocorrelation etant signi-ficativement non nuls pour |h| ≤ 100. On en deduit, en particulier, que la suite des log-retours peutetre modelisee comme un bruit blanc, mais pas un bruit blanc fort : en effet, pour un bruit blanc fortXt, nous avons, pour toute fonction f telle que E

f(Xt)

2

= σ2f <∞, cov(f(Xt+h), f(Xt)) = 0 pour

h 6= 0 (les variables f(Xt+h) et f(Xt) etant independantes, elles sont a fortiori non correlees). Nousreviendrons dans la suite du cours sur des modeles possibles pour de telles series.

30

Page 32: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

3.3 Mesure spectrale d’un processus stationnaire au second ordre atemps discret

Dans toute la suite, T designe le tore (−π, π] et B(T) la tribu de borelienne associee. Le theoremed’Herglotz ci dessous etablit l’equivalence entre la fonction d’autocovariance et une mesure finie definiesur l’intervalle T,B(T). Cette mesure, appelee mesure spectrale du processus, joue un role analoguea celui de la transformation de Fourier pour les fonctions. En particulier elle confere une expressionsimple aux formules de filtrage lineaire.

Theoreme 3.3.1 (Herglotz)Une suite γ(h)h∈Z est de type positif si et seulement si il existe une mesure positive sur T,B(T)telle que :

γ(h) =

∫T

eihλν(dλ) (3.6)

Si la suite γ(h) est sommable (i.e.∑

h |γ(h)| < ∞), la mesure ν possede une densite f (fonctionpositive) par rapport a la mesure de Lebesgue sur T,B(T), donnee par la serie entiere uniformementconvergente :

f(λ) =1

∑h∈Z

γ(h)e−ihλ ≥ 0

Lorsque γ est la fonction d’autocovariance d’un processus stationnaire au second ordre, la mesure νest appelee la mesure spectrale et la fonction f , lorsque qu’elle existe, est dite densite spectrale depuissance.

Demonstration Tout d’abord si γ(n) a la representation (3.6), il est clair que γ(n) est de typepositif. En effet, pour tout n et toute suite ak ∈ C1≤k≤n,

∑k,m

aka∗mγ(k −m) =

∫T

∑k,m

aka∗meikλe−imλν(dλ) =

∫T

∣∣∣∣∣∑k

akeikλ

∣∣∣∣∣2

ν(dλ) ≥ 0

Reciproquement, supposons que γ(n) soit une suite de type positif et considerons la suite de fonctionsindexee par n :

fn(λ) =1

2πn

n∑k=1

n∑m=1

γ(k −m)e−ikλeimλ =1

n−1∑k=−(n−1)

(1− |k|

n

)γ(k)e−ikλ =

1

∞∑k=−∞

γn(k)e−ikλ

ou nous avons pose :

γn(k) =

(1− |k|

n

)+

γ(k)

qui verifie |γn(k)e−ikλ| ≤ |γ(k)| et limn→∞ γn(k) = γ(k). Par construction, fn(λ) est une fonctionpositive (pour tout n) du fait que la sequence d’autocovariance γ(k) est de type positif.

Pour conclure la preuve, nous commencons par le cas particulier pour lequel on suppose l’hypothesesupplementaire

∞∑k=−∞

|γ(k)| <∞ . (3.7)

31

Page 33: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Sous cette hypothese, une application directe du theoreme de convergence domine montre que :

limn→∞

fn(λ) =1

2πlimn→∞

∞∑k=−∞

γn(k)e−ikλ =1

∞∑k=−∞

limn→∞

γn(k)e−ikλ =1

∞∑k=−∞

γ(k)e−ikt = f(λ)

et donc f(λ) est positive comme limite de fonctions positives. Une application directe du theoreme deFubini (la permutation etant legitime car

∫T∑∞

k=−∞ |γ(k)|dλ <∞), montre que, pour tout h ∈ Z, ona : ∫

Tf(λ)eihλdλ =

∞∑k=−∞

γ(k)1

∫ π

−πei(h−k)λdλ = γ(h) .

Ceci conclut la preuve sous l’hypothese simplificatrice (3.7).La preuve du cas general utilise le theoreme de Prohorov, voir le theoreme 6.2.2 du paragraphe 6.2.

Remarquons tout d’abord que l’on peut supposer γ(0) = 1 **** REPRENDRE ICI****Notons µn la mesure (positive) de densite fn par rapport a la mesure de Lebesgue sur T. On a

alors par construction

µn(p) =

∫ π

−πfn(t)eiptdt =

(1− |p|

n

)γ(p).

pour |p| ≤ n. En particulier on a µn(T) = γ(0). De toute sous-suite νk = µnk de la suite µn, onpeut extraire une sous-suite ν

k qui converge etroitement vers une mesure positive µ (dependant a

priori du choix de la sous suite) de masse totale c(0) (theoreme de Prohorov). On a, pour tout p pourtout p ∈ Z

µ(p) = limkµk(p) = γ(−p)

La limite ν(p) ne depend pas du choix de la sous-suite, et donc de toute sous-suite de la suite µN, onpeut extraire une sous-suite qui converge vers la meme mesure limite µ. On en deduit que la suite µNconverge etroitement vers µ. Lorsque

∑k |γ(k)| < ∞, alors gN (t) converge vers f(t) par application

du theoreme de convergence domine.

Theoreme 3.3.2Soit µn une suite de probabilite sur (R,B(R), telle que, pour tout ε > 0, il existe un ensemble compactKε, tel que µn(Kε) ≥ (1 − ε). Alors, pour toute sous-suite µnk, il existe une sous-suite µnk(j)extraite de µnk et une probabilite µ telle que µnk(j) →d µ faiblement.

Proposition 3.3.3 (Corollaire du theoreme d’Herglotz)Une suite γ(h), h ∈ Z a valeurs complexes absolument sommable est de type positif si et seulementsi la fonction definie par

f(λ) =1

+∞∑h=−∞

γ(h)e−ihλ

est positive pour tout λ ∈ T.

3.6 Exemple:En reprenant l’exemple 3.5, on verifie immediatement que R(h) est de module sommable et que :

f(λ) =1

∑h

R(h)e−ihλ =1

2π(1 + 2ρ cos(λ))

32

Page 34: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et donc que la sequence est une fonction d’autocovariance uniquement lorsque |ρ| ≤ 1/2.

3.7 Exemple (Densite spectrale de puissance du bruit blanc):La fonction d’autocovariance d’un bruit blanc est donnee par γ(h) = σ2δ(h), d’ou l’expression de la densitespectrale correspondante

f(λ) =σ2

La densite spectrale d’un bruit blanc est donc constante. Cette propriete est a l’origine de la terminologie“bruit blanc” qui provient de l’analogie avec le spectre de la lumiere blanche constant dans toute la bandede frequences visibles.

3.8 Exemple (Densite spectrale de puissance du processus MA(1)):Le processus MA(1) introduit dans l’exemple 3.2 possede une sequence d’autocovariance donnee par γ(0) =σ2(1 + θ2), γ(1) = γ(−1) = σ2θ et γ(h) = 0 sinon (cf. exemple 3.2). D’ou l’expression de sa densitespectrale :

f(λ) =σ2

2π(2θ cos(λ) + (1 + θ2)) =

σ2

∣∣∣1 + θe−iλ∣∣∣2

La densite spectrale d’un tel processus est representee figure 3.6 pour θ = −0.9 et σ2 = 1 avec une echellelogarithmique (dB).

0−30

−25

−20

−15

−10

−5

0

dB

−π +π

Figure 3.6 – Densite spectrale (en dB) d’un processus MA-1, defini parl’equation (3.4) pour σ = 1 et θ = −0.9.

3.9 Exemple (Mesure spectrale du processus harmonique):La fonction d’autocovariance du processus harmonique Xt =

∑Nk=1Ak cos(λkt + Φk) (voir exemple 3.3)

est donnee par :

γ(h) =1

2

N∑k=1

σ2k cos(λkh) (3.8)

33

Page 35: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou σ2k = E

A2k

. Cette suite de coefficients d’autocovariance n’est pas sommable et la mesure spectrale

n’admet pas de densite. En notant cependant que :

cos(λkh) =1

2

∫ π

−πeihλ(δλk(dλ) + δ−λk(dλ))

ou δx0(dλ) designe la mesure de Dirac au point x0 (cette mesure associe la valeur 1 a tout borelien de[−π, π] contenant x0 et la valeur 0 sinon), la mesure spectrale du processus harmonique peut s’ecrire :

ν(dλ) =1

4

N∑k=1

σ2kδλk(dλ) +

1

4

N∑k=1

σ2kδ−λk(dλ)

Elle apparaıt donc comme une somme de mesures de Dirac, dont les masses σ2k sont localisees aux pulsations

des differentes composantes harmoniques.

Contrairement aux autres exemples etudies, le processus harmonique possede une fonction d’autoco-variance, donnee par 3.8, non absolument sommable (γ(h) ne tend pas meme vers 0 pour les grandesvaleurs de h). Par suite, il admet une mesure spectrale mais pas une densite spectrale. La proprietesuivante, a demontrer a titre d’exercice, implique que le processus harmonique est en fait entierementpredictible a partir de quelques-unes de ses valeurs passees.

Proposition 3.3.4S’il existe un rang n pour lequel la matrice de covariance Γn definie en (3.3) est non inversible, leprocessus correspondant Xt est predictible dans le sens ou il existe une combinaison lineaire a1, . . . alavec l ≤ n− 1 telle que Xt =

∑lk=1 akXt−k, l’egalite ayant lieu presque surement.

L’expression de la fonction d’autocovariance, obtenue en (3.8) pour le processus harmonique, montreque les matrices de covariances associees s’ecrivent comme la somme de 2N matrices complexes derang 1. Par consequent, les matrices Γn ne sont pas inversibles des que n > 2N , ce qui implique quele processus harmonique est predictible des lors que l’on en a observe 2N valeurs. Ce resultat est sanssurprise compte tenu du fait que les trajectoires de ce processus sont des sommes de sinusoıdes defrequences λ1, . . . , λN dont seules les amplitudes et les phases sont aleatoires. La propriete suivantedonne une condition suffisante simple pour eviter ce type de comportements “extremes”. Cette pro-priete implique en particulier que, pour une fonction d’autocovariance absolument sommable (tousles exemples vus ci-dessus en dehors du processus harmoniques), les valeurs futures du processuscorrespondant ne sont pas predictibles sans erreur a partir d’un ensemble fini de valeurs passees duprocessus. Nous reviendrons en detail sur ces problemes de prediction au chapitre 5.

Proposition 3.3.5Soit γ(h) la fonction d’autocovariance d’un processus stationnaire au second ordre. On suppose queγ(0) > 0 et que γ(h) → 0 quand h → ∞. Alors, quel que soit n, la matrice de covariance definieen (3.3) est de rang plein et donc inversible .

Demonstration Supposons qu’il existe une suite de valeurs complexes (a1, . . . , an) non toutes nulles,telle que

∑nk=1

∑nm=1 aka

∗mγ(k −m) = 0. En notant νX la mesure spectrale de Xt, on peut ecrire :

0 =

n∑k=1

n∑m=1

aka∗m

∫T

ei(k−m)λνX(dλ) =

∫T

∣∣∣∣∣n∑k=1

akeikλ

∣∣∣∣∣2

νX(dλ)

34

Page 36: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Ce qui implique que∣∣∑n

k=1 akeikλ∣∣2 = 0 νX presque partout, c’est a dire que νX(λ :

∣∣∑nk=1 ake

ikλ∣∣2 6=

0) = νX(T − Z) = 0 ou Z = λ1, . . . , λM :∑n

k=1 akeikλm = 0 designe l’ensemble fini (M < n)

des racines x ∈ T du polynome trigonometrique∑n

k=1 akeikλ. Par consequent, les seuls elements

de B(T), qui peuvent etre de mesure non nulle pour νX , sont les singletons λm. Ce qui impliqueque νX =

∑Mm=1 amδλm (ou am ≥ 0 ne peuvent etre tous nuls si γ(0) 6= 0). Mais, dans ce cas,

γ(h) =∑M

m=1 ameihλm , ce qui contredit l’hypothese que γ(h) tend vers 0 quand n tend vers l’infini.

35

Page 37: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 4

Filtrage des processus stationnaires ausecond ordre

4.1 Filtrages lineaires de processus

4.1.1 Definition et exemples de base

On pose E = Rd et E = B(Rd) pour un entier d ≥ 1.

Definition 4.1.1Soit φ une application lineaire mesurable de (ET , E⊗T ) dans lui-meme et X = Xt, t ∈ T un processusa valeurs dans (E, E). On appelle filtrage lineaire du processus X le processus Y = (Yt)t∈T a valeursdans (E, E) defini par Y = φ X, c’est-a-dire Yt = Πt φ X pour tout t ∈ T , ou Πt est definipar (1.5).

Dorenavant, nous prendrons essentiellement T = Z.

4.1 Exemple (Decalage):Un exemple fondamental de filtrage lineaire de processus est obtenu en prenant φ = S ou S est l’operateurde decalage de la definition 1.2.5. Dans ce cas Yt = Xt+1 pour tout t ∈ Z.

4.2 Exemple (Reponse impulsionnelle finie (RIF)):Soient n ≥ 1 et t1 < · · · < tn des elements de Z et α1, . . . , αn ∈ E. Alors

∑i αiS

−ti definit un filtragelineaire pour n’importe quel processus X = Xt, t ∈ Z pour lequel la sortie est donnee par

Yt =

n∑i=1

αiXt−ti , t ∈ Z .

4.3 Exemple (Differentiation):Un cas particulier de l’exemple precedent est donne par l’operateur de differentiation I − S−1 ou I denotel’operateur identite. Le processus obtenu en sortie s’ecrit

Yt = Xt −Xt−1, t ∈ Z .

36

Page 38: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

On pourra iterer l’operateur de differentiation, ainsi Y = (I − S−1)kX est donnee par

Yt =k∑j=0

(k

j

)Xt−j , t ∈ Z .

4.4 Exemple (Retournement du temps):Etant donne un processus X = Xt, t ∈ Z, on appellera processus retourne le processus obtenu parretournement du temps defini par

Yt = X−t, t ∈ Z .

4.5 Exemple (Integration):Etant donne un processus X = (Xt)t∈Z qui verifie

∑0t=−∞ |Xt| < ∞ p.s., on appellera processus integre

le processus defini par

Yt =

∞∑s=0

Xt−s, t ∈ Z .

Contrairement aux exemples precedents, l’application φ qui definit ce filtrage doit etre definie avec quelquesprecautions. Il faut en effet tout d’abord definir φ sur

A =

x = (xt)t∈Z ∈ EZ :

0∑t=−∞

|xt| <∞

,

par φ(x) =∑∞

s=0 xt−s. Comme A est un espace vectoriel, on peut prolonger φ lineairement sur (EZ, E⊗Z).Le point important est que ce filtrage ne sera applique a X que sous l’hypothese

∑0t=−∞ |Xt| <∞ p.s. et

que ce prolongement est donc defini de facon quelconque.

On remarque que dans tous les exemples precedents les operateurs introduits preservent la station-narite stricte et la stationnarite au second ordre, c’est-a-dire, si X est strictement stationnaire alors Yl’est aussi et idem pour la stationnarite au second ordre. Il est facile de construire des filtrages lineairesqui ne preserve pas la stationnarite, par exemple, y = φ(x) avec yt = xt pour t pair et yt = xt + 1pour t impaire, mais ce type de filtrage ne nous interessera pas par la suite. Une propriete plus forteque la conservation de la stationnarite est donnee par la definition suivante.

Definition 4.1.2Un filtrage lineaire est invariant par translation s’il commute avec S : φ S = S φ.

Cette propriete implique la preservation de la stationnarite mais ne lui est pas equivalente. Leretournement du temps est en effet un exemple de filtrage qui ne commute pas avec S puisque dansce cas on a φ S = S−1 φ. En revanche tous les autres exemples ci-dessus satisfont la proprieted’invariance par translation.

Remarque 4.1 Un filtrage lineaire φ invariant par translation est entierement determine par sa projec-tion canonique Π0, voir (1.5). En effet, notons φ0 = Π0φ. Alors pour tout s ∈ Z, Πsφ = Π0Ssφ =Π0 φ Ss.

37

Page 39: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

4.1.2 Filtrage des processus stationnaires au second ordre

Nous nous interesserons principalement dans la suite a des filtrages invariants par translation etconsidererons le cas ou les processus X et Y = φ X sont tous deux stationnaires au second ordre.Considerons les exemples precedents. Pour tous ceux qui rentre dans la categorie des filtres RIF,il est clair que si X est un processus stationnaire au second ordre, alors Y l’est aussi. C’est aussile cas du filtrage par retournement du temps qui preserve de plus les proprietes du second ordre(moyenne, fonction d’auto–covariance et mesure spectrale). Pour le filtrage par integration qui estdu type RII (filtrage a reponse impulsionnelle infinie), cette question est moins evidente. Ce type defiltrage implique en effet une notion de convergence de series de variables aleatoires. Dans le cadre desfiltrages du type RII appliques aux processus stationnaires au second ordre, nous nous reposerons surles proprietes de l’espace de Hilbert L2(Ω) des v.a. aleatoires de carre integrable.

Definition 4.1.3Soit X = Xt, t ∈ Z un processus du second ordre. On note HX∞ la fermeture dans L2(Ω) du sous-espace engendre par les v.a. Xt, t ∈ Z,

HX∞ = span (Xt, t ∈ Z) .

Cet ensemble est alors le sous-espace de L2(Ω) contenant toute v.a. Y pour lesquelles il existe une suited’elements (Yn)n≥1 de span (Xt, t ∈ Z) (l’espace des combinaisons lineaires finies formees d’elementsde Xt, t ∈ Z) qui converge vers Y au sens L2 quand n→∞, i.e.

limn→∞

E|Y − Yn|2 → 0 .

Dans l’exemple suivant, on explique comment definir un filtrage lineaire d’un processus X unique-ment a partir d’un element de HX∞.

4.6 Exemple (Filtrage dans HX∞):

Soit X = (Xt)t∈Z un processus stationnaire du second ordre de moyenne µX et de covariance γX . Soitde plus Y0 ∈ HX∞. On remarque alors que pour tout tableau (αt,n)t∈Z,n≥1 tel que

∑s∈Z αs,nX−s converge

vers Y0 au sens L2, on a aussi, par stationnarite et en utilisant le critere de Cauchy, que pour tout t ∈ Z,∑s∈Z αs,nXt−s converge au sens L2 dans HX∞. On note alors Yt sa limite et on appelle Y = Yt, t ∈ Z

le processus filtre correspondant. Par continuite de l’esperance et du produit scalaire sur L2(Ω), on obtientfacilement que Y est stationnaire au second ordre de moyenne

µY = µX × limn→∞

∑s∈Z

αs,n ,

de fonction d’autocovariance

γY (τ) = limn→∞

∑s∈Z

∑t∈Z

αs,nαt,nγX(τ − t+ s) .

Un cas particulier de l’exemple precedent est celui ou X est un bruit blanc faible.

38

Page 40: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

4.7 Exemple (Filtrage d’un bruit blanc):Placons-nous dans le cas de l’exemple 4.6 avec X bruit blanc faible. Dans ce cas, Xt, t ∈ Z forme unebase hilbertienne de HX∞ et donc

HX∞ =

∑t∈Z

αtXt : (αt) ∈ `2(Z)

,

ou `2(Z) est l’ensemble des suites (xt) ∈ CZ telles que∑

t |αt|2 <∞ et la convergence de la somme∑

t∈Zest a comprendre au sens L2. On peut en particulier prendre (αt,n)t∈Z,n≥1 de la forme αt,n = αt1(−n ≤t ≤ n).

On introduit l’operateur de retard qui facilitera l’ecriture de ces filtres.

Definition 4.1.4 (Operateur de retard)Soit Xt, t ∈ Z defini sur (Ω,F ,P) un processus du second ordre. On definit l’operateur de retard B(comme backshift en anglais) comme l’operateur de l’espace HX∞ dans lui-meme defini par B(Xt) =Xt−1. (l’extension a HX∞ tout entier est obtenu en completant par linearite et densite.)

On a le resultat suivant dont la preuve elementaire est omise.

Proposition 4.1.5Soit X = Xt, t ∈ Z un processus du second ordre. Supposons que X soit de moyenne constante, pourtout t, E[Xt] = µ. Alors X est stationnaire au second ordre si et seulement si B est une isometrie deHX∞ dans lui-meme.

Remarque 4.2 On remarque que l’operateur B est tres lie a l’operateur S−1. Une difference essentielleest qu’il opere sur un espace de v.a. (l’espace HX∞) alors que S−1 opere sur un espace de trajectoires(l’espace EZ). Cette relation est formellement donnee par l’egalite des 2 v.a. B(Πt X) = Πt S−1 X.

On note Bk = B Bk−1 pour k ≥ 1 les compositions successives de l’operateur B. Pour k < 0, Bk

est defini comme l’operateur inverse de Bk.Reprenons l’exemple 4.6 du filtrage lineaire entierement defini par un element Y0 ∈ HX∞. Quand,

pour definir Y0, on peut prendre (αt,n)t∈Z,n≥1 de la forme αt,n = αt1(−n ≤ t ≤ n) ou (αt) ∈ CZ, onnotera

∑s∈Z αsB

s l’operateur correspondant,

Yt =∑s∈Z

αsBs(Xt)⇔ Yt =

∑s∈Z

αsXt−s pour tout t ∈ Z .

C’est bien le cas dans l’exemple 4.7 qui repose sur des hypothese particulieres pour X. Ce sera encorele cas dans le cadre du paragraphe 4.1.3, cette fois sous des hypotheses particulieres pour la suite (αt).

4.1.3 Filtres a reponse impulsionnelle sommable

Dans ce paragraphe, nous nous interessons au filtrage des processus obtenus. par convolution destrajectoires avec un suite absolument sommable.

39

Page 41: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Theoreme 4.1.6Soit ψkk∈Z une suite absolument sommable, i.e.

∑∞k=−∞ |ψk| <∞ et soit Xt un processus aleatoire

tel que supt∈Z E |Xt| <∞. Alors, pour tout t ∈ Z, la suite :

Yn,t =n∑

s=−nψsXt−s

converge presque surement, quand n tend vers l’infini, vers une limite Yt que nous notons

Yt =∞∑

s=−∞ψsXt−s .

De plus, la variable aleatoire Yt est integrable, i.e. E |Yt| <∞ et la suite Yn,tn≥0 converge vers Yten norme ‖.‖1,

limn→∞

E |Yn,t − Yt| = 0 .

Supposons que supt∈Z EX2t

< ∞. Alors, E

Y 2t

< ∞ et la suite Yn,tn≥0 converge en moyenne

quadratique vers la variable aleatoire Yt, c’est a dire que

limn→∞

E|Yn,t − Yt|2

= 0 .

Demonstration Voir le paragraphe 4.3 en fin de chapitre.

Le resultat suivant etabli que le processus obtenu par filtrage lineaire d’un processus stationnaire dusecond ordre est lui-meme stationnaire au second ordre, a condition que la reponse impulsionnelleψk soit de module sommable.

Theoreme 4.1.7 (Filtrage des processus stationnaires au second ordre)Soit ψk une suite telle que

∑∞k=−∞ |ψk| <∞ et soit Xt un processus stationnaire au second ordre

de moyenne µX = E Xt et de fonction d’autocovariance γX(h) = cov(Xt+h, Xt). Alors le processusYt =

∑∞s=−∞ ψsXt−s est stationnaire au second ordre de moyenne :

µY = µX

∞∑k=−∞

ψk (4.1)

de fonction d’autocovariance :

γY (h) =∞∑

j=−∞

∞∑k=−∞

ψjψkγX(h+ k − j) (4.2)

et de mesure spectrale :νY (dλ) = |ψ(e−iλ)|2νX(dλ) (4.3)

ou ψ(e−iλ) =∑

k ψke−ikλ est la transformee de Fourier a temps discret de la suite ψkk∈Z.

Demonstration Voir le paragraphe 4.3 a la fin de ce chapitre.

40

Page 42: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La relation (4.3) qui donne la mesure spectrale du processus filtre en fonction de la fonction de transfertdu filtre et de la mesure d’entree du processus d’entree est particulierement simple. Elle montre parexemple que la mise en serie de deux filtres α(B), β(B) de reponses impulsionnelles absolumentsommables conduit a une mesure spectrale |α(e−iλ)|2|β(e−iλ)|2νX(dλ) pour le processus de sortie (cequi montre au passage que l’ordre d’application des filtres est indifferent).

Definition 4.1.8 (Processus lineaire)Nous dirons que Xt est un processus lineaire s’il existe un bruit blanc Zt ∼ BB(0, σ2) et une suitede coefficients ψkk∈Z absolument sommable telle que :

Xt = µ+

∞∑k=−∞

ψkZt−k (4.4)

ou µ designe une valeur arbitraire.

Il resulte directement de la discussion ci-dessus qu’un processus lineaire est stationnaire au secondordre, que sa moyenne est egale a µ, que sa fonction d’autocovariance est donnee par :

γX(h) = σ2∞∑

j=−∞ψjψj+h

et que sa mesure spectrale admet une densite dont l’expression est :

fX(λ) =σ2

2π|ψ(e−iλ)|2 (4.5)

ou ψ(e−iλ) =∑

k ψke−ikλ.

4.1.4 Representation spectrale des processus stationnaire du second ordre et fil-trage lineaire

Pour un mesure ν sur (−π, π], ou de facon equivalente sur le tore, on note L2(ν) l’ensemble desfonctions boreliennes f (2π)-periodiques a valeurs complexes telles que∫

|f(λ)|2 ν(dλ) <∞ .

Definition 4.1.9Soit X = (Xt)t∈T un processus stationnaire du second ordre centre de mesure spectrale ν. Il existe uneunique application lineaire T de HX∞ dans L2(ν) telle que, pour tout t ∈ T ,

T (Xt) =[λ 7→ eitλ

].

De plus T est une isometrie hilbertienne.

41

Page 43: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

L’existence, l’unicite et l’isometrie proviennent de l’observation que T respecte le produit scalairepuisque

EXtXs = cov(Xt, Xs) =

∫eiλ(t−s) ν(dλ) ,

et du fait que L2(ν) = span ([λ 7→ eitλ] : t ∈ T ). Par bijection de T , on peut definir une isometriereciproque T −1 de L2(ν) dans HX∞.

L’isometrie T −1 peut en fait s’interpreter comme une integrale par rapport a un processus definisur (−π, π]. Puisque 1(−π,−π+λ] ∈ L2(ν), on peut definir, pour tout λ ∈ (−π, π],

X(λ) = T −1(1(−π,−π+λ]) ∈ HX∞ .

On observe par isometrie de T −1 que le processus ainsi obtenu est a accroissements orthogonaux,c’est-a-dire, pour tout −π ≤ λ1 ≤ λ2 ≤ λ3,

cov(X(λ1), X(λ3)− X(λ2)

)= 0 .

Soit f une fonction en escalier, c’est-a-dire telle que pour n ≥ 1 et −π = λ0 < λ1 < · · · < λn = πdonnes,

f(λ) = f(λi) pour tout i ∈ 0, 1, . . . , n− 1 et λ ∈ (λi, λi+1] .

On a alors par linearite de T −1,

T −1(f) =n−1∑i=0

f(λi)X(λi+1)− X(λi)

=

∫f(λ) dX(λ) ,

ou l’integrale ainsi definie correspond a la formule habituelle de l’integrale d’une fonction en escalier.L’integrale stochastique est etendue des fonctions en escalier aux fonctions de L2(ν) par passage a lalimite L2 en utilisant l’isometrie de T −1 et le fait que L2(ν) est engendre par les fonctions en escalier.C’est pourquoi on notera dans la suite l’application T −1 sous une forme integrale :

T −1(f) =

∫f(λ) dX(λ) pour toute fonction f ∈ L2(ν) .

En particulier, on a

Xt =

∫eiλt dX(λ) pour tout t ∈ T .

Reprenons maintenant l’exemple 4.6 du filtrage lineaire entierement defini par un element Y0 ∈ HX∞mais cette fois en utilisant la representation spectrale des elements de HX∞ . Ce filtrage est defini defacon equivalente par un element f0 ∈ L2(ν) en posant, pour tout t ∈ Z,

Yt = T −1(ft) avec ft(λ) = eiλtf0(λ) .

On obtient de plus par isometrie de T −1 que

cov (Yt, Ys) =

∫eiλ(t−s) |f0(λ)|2 ν(dλ) ,

et donc que la mesure spectrale (Yt) admet pour densite |f0(λ)|2 par rapport a ν. et si Y = (Yt) estobtenu par filtrage de X comme precedemment, on a

Yt =

∫eiλtf0(λ) dX(λ) pour tout t ∈ Z .

42

Page 44: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

4.2 Processus ARMA

Dans ce paragraphe nous nous interessons a une classe importante de processus du second ordre,les processus autoregressifs a moyenne ajustee ou processus ARMA. Il s’agit de restreindre la classedes processus lineaires en ne considerant que les filtres dont la fonction de transfert est rationnelle.

4.2.1 Processus MA(q)

Definition 4.2.1 (Processus MA(q))On dit que le processus Xt est a moyenne ajustee d’ordre q (ou MA(q)) si Xt est donne par :

Xt = Zt + θ1Zt−1 + · · ·+ θqZt−q (4.6)

ou Zt ∼ BB(0, σ2).

La terminologie ”moyenne ajustee” est la traduction, assez malheureuse, du nom anglo-saxon ”movingaverage” (moyenne mobile) En utilisant les resultats du theoreme 4.1.7, on obtient E Xt = 0, et

γX(h) =

σ2∑t−|h|

t=0 θkθk+|h| pour 0 ≤ |h| ≤ q0 sinon

(4.7)

Enfin, d’apres la formule (4.5), le processus admet une densite spectrale dont l’expression est :

fX(λ) =σ2

∣∣∣∣∣1 +

q∑k=1

θke−ikλ

∣∣∣∣∣2

Un exemple de densite spectrale pour le processus MA(1) est represente figure 3.6. De maniere generale,la densite spectrale d’un processus MA(q) possede des anti-resonnances au voisinage des pulsationscorrespondant aux arguments des racines du polynome θ(z) =

∑qk=1 θkz

k. On demontrera, a titred’exercice, la propriete suivante qui indique que toute suite de coefficients covariance γ(h) non nullesauf pour un nombre fini d’indices temporels (i.e. le cardinal de l’ensemble h ∈ Z, γ(h) 6= 0) peut etreconsideree comme la suite des coefficients d’autocovariance d’un modele lineaire a moyenne mobile.

Proposition 4.2.2Soit γ(h) une fonction d’autocovariance telle que γ(h) = 0 pour |h| > q. Alors, il existe un bruit blancZt et un polynome θ(z) de degre inferieur ou egal a q tels que γ(h) soit la fonction d’autocovariancedu processus MA(q) defini par Xt = Zt +

∑qk=1 θkZt−k.

4.2.2 Processus AR(p)

Definition 4.2.3 (Processus AR(p))On dit que le processus Xt est un processus autoregressif d’ordre p (ou AR(p)) si Xt est unprocessus stationnaire au second-ordre et s’il est solution de l’equation de recurrence :

Xt = φ1Xt−1 + · · ·+ φpXt−p + Zt (4.8)

ou Zt ∼ BB(0, σ2) est un bruit blanc.

43

Page 45: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Le terme “autoregressif” provient de la forme de l’equation (4.8) dans laquelle la valeur courante duprocessus s’exprime sous la forme d’une regression (terme synonyme de combinaison lineaire) des pvaleurs precedentes du processus plus un bruit additif.

L’existence et l’unicite d’une solution stationnaire au second ordre de l’equation (4.8) constituentdes questions delicates (qui ne se posaient pas lorsque nous avions defini les modeles MA). Nousdetaillons ci-dessous la reponse a cette question dans le cas le cas p = 1.

Cas : |φ1| < 1

L’equation de recurrence s’ecrit :Xt = φ1Xt−1 + Zt (4.9)

Puisque |φ1| < 1, la fraction rationnelle ψ(z) = (1− φ1z)−1 a un developpement en serie entiere de la

forme :

ψ(z) =1

1− φ1z=

+∞∑k=0

φk1zk

qui converge sur le disque z ∈ C : |z| < |φ1|−1. Considerons alors le filtre lineaire de reponseimpulsionnelle ψk = φk1 pour k ≥ 0 et ψk = 0 sinon. Comme ψk est absolument sommable, le processus

Yt =

∞∑k=0

ψkZt−k =

∞∑k=0

φk1Zt−k

est bien defini et est stationnaire au second ordre. Par construction Yt est solution de (4.9) ce que l’onpeut egalement verifier directement en notant que :

Xt = Zt + φ1

+∞∑k=0

φk1Zt−1−k = Zt + φ1Xt−1

L’unicite de la solution est garantie par l’hypothese de stationnarite au second ordre. Supposons eneffet que Xt et Yt soient deux processus stationnaires au second-ordre et que ces deux processussoient solutions de l’equation de recurrence (4.9). On a alors par difference (Xt−Yt) = φ1(Xt−1−Yt−1),relation qui iteree k fois implique

(Xt − Yt) = φk1(Xt−k − Yt−k) .

Par suite,

E |Xt − Yt| = φk1E |Xt−k − Yt−k| ≤ φk1(E |Xt−k|+ E |Yt−k|) ≤ φk1(EX2

0

12 + E

Y 2

0

12 )

ou k peut etre pris quelconque. Comme φ1 est en module plus petit que 1, on en deduit queE |Xt − Yt| = 0 et donc que Xt = Yt presque surement. La fonction d’autocovariance de Xt solutionstationnaire de (4.9) est donnee par la formule (4.2) qui s’ecrit ;

γX(h) = σ2∞∑k=0

φk1φk+|h|1 = σ2 φ

|h|1

1− φ21

(4.10)

44

Page 46: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 100 200 300 400 500−5

0

5

0 100 200 300 400 500−5

0

5

0 100 200 300 400 500−10

0

10

Figure 4.1 – Trajectoires de longueur 500 d’un processus AR(1)) gaussien.Courbe du haut : φ1 = −0.7. Courbe du milieu : φ1 = 0.5. Courbe du bas :φ1 = 0.9

Lorsque φ1 > 0, le processus Xt est positivement correle, dans le sens ou tous ses coefficients d’au-tocovariance sont positifs. Les exemples de trajectoires representees sur la figure 4.1 montrent quedes valeurs de φ1 proches de 1 correspondent a des trajectoires “persistantes” (dont, par exemple,les temps successifs de passage par zero sont relativement espaces). Inversement, des valeurs de φ1

negatives conduisent a des trajectoires ou une valeur positive a tendance a etre suivie par une valeurnegative. La densite spectrale de Xt est donnee par

00

0.5

1

1.5

2

−π +π

Figure 4.2 – Densite spectrale d’un processus AR(1), defini par (4.9) pourσ = 1 et φ1 = 0.7.

fX(λ) =σ2

∣∣∣∣∣∞∑k=0

φk1e−ikλ

∣∣∣∣∣2

=σ2

1

|1− φ1e−iλ|2(4.11)

45

Page 47: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La figure 4.2 donne la forme de cette densite spectrale pour φ1 = 0.7.

Cas |φ1| > 1

Nous allons montrer que le processus retourne temporel verifie une equation recurrente qui nousramene au cas precedent. Pour cela posons Xr

t = X−t. En portant Xrt dans l’equation (4.9), on obtient

Xrt = X−t = φ1X−t−1 + Z−t = φ1X

rt+1 + Z−t

qui peut encore s’ecrire :Xrt = φ−1

1 Xrt−1 +Wt (4.12)

ou Wt = −φ−11 Z−t−1 est un bruit blanc de variance σ2

W = σ2/φ21. L’equation (4.12) est maintenant du

type que (4.8) puisque |φ−11 | < 1. Par consequent il existe un unique processus stationnaire solution

de l’equation 4.12 donne par

Xrt =

∞∑k=0

φ−k1 Wt−k (4.13)

Comme Xrt est stationnaire au second ordre, le processus

Xt = Xr−t =

∞∑k=0

φ−k1 W−t+k = −∞∑k=1

φ−k1 Zt+k (4.14)

l’est egalement (cf. exemple 3.1) avec la meme moyenne et la meme fonction d’autocovariance. Lesexpressions de la fonction d’autocovariance et de la densite spectrale du processus sont donc donneesrespectivement par (4.10) et (4.11) a condition de substituer φ1 par 1/φ1. Un point remarquable apropos de l’expression de la solution stationnaire donnee par (4.14) est que celle ci est entierementanti-causale, dans le sens ou elle ne depend que des valeurs futures du bruit Zt. Cette remarquemontre qu’il ne faut pas se laisser tromper par l’apparence de la relation de recurrence (4.12) : lasolution stationnaire ne s’exprime par forcement comme un filtrage causal du bruit Zt, point que nousdevelopperons au paragraphe 4.2.2.

Cas |φ1| = 1

Nous avons deja montre a propos de l’exemple 3.4 que lorsque φ1 = 1, un processus Xt verifiantXt = Xt−1+Zt ne peut avoir une variance constante au cours du temps (on a montre que E

X2t |X0

=

tσ2, ou σ2 est la variance de Zt, et donc EX2t

= tσ2). A fortiori, un tel processus ne peut etre

stationnaire au second ordre. En utilisant la meme technique, on montre aisement que l’equation derecurrence (4.9) ne peut avoir de solution stationnaire lorsque |φ1| = 1. Une remarque interessanteest que dans le cas ou φ1 = 1, le processus Zt = Xt −Xt−1 est par hypothese stationnaire. On peutdonc utiliser le modele Xt − Xt−1 = Zt pour un processus Xt, t ∈ Z non-stationnaire dont lesincrements sont supposes stationnaires. C’est implicitement la strategie que nous avons adoptee pouranalyser la serie de l’indice S&P500 representee figure 1.4 au paragraphe 3.2.2 (en utilisant en plusune transformation logarithmique des donnees).

46

Page 48: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Cas general

Le theoreme suivant etend les resultats precedents a un processus AR(p).

Theoreme 4.2.4 (Existence des processus AR(p))L’equation recurrente :

Xt = φ1Xt−1 + · · ·+ φpXt−p + Zt (4.15)

ou Zt ∼ BB(0, σ2) admet une solution stationnaire au second ordre si et seulement si le polynome :

φ(z) = 1− φ1z − · · · − φpzp 6= 0 pour |z| = 1

et cette solution est unique. Elle a pour expression :

Xt =∞∑

k=−∞ψkZt−k (4.16)

ou ψk est la suite des coefficients du developpement en serie de Laurent de 1/φ(z) au voisinage ducercle unite.

Demonstration La condition φ(z) 6= 0 pour |z| = 1 implique que φ(z) 6= 0 dans une couronne1− δ ≤ |z| ≤ 1 + δ et donc que la fonction ψ(z) = 1/φ(z) est analytique dans cette couronne. Il s’ensuit que 1/φ(z) admet, pour 1− δ ≤ |z| ≤ 1 + δ, un developpement en serie de Laurent qui s’ecrit :

1

φ(z)=

∞∑k=−∞

ψkzk = ψ(z) (4.17)

ou la suite ψk est de module sommable et verifie ψ0 = 1. Nous pouvons alors considerer le filtrede reponse impulsionnelle ψk. D’apres le theoreme 4.1.7, nous pouvons appliquer ce filtre aux deuxmembres de l’equation recurrente φ(B)Xt = Zt. Nous obtenons (ψ(B)φ(B))Xt = Xt = ψ(B)Zt. Onen deduit que l’unique solution stationnaire de l’equation (4.15) est donnee par (4.16).

AR(p) causal

On peut distinguer trois cas suivant la position des racines de φ(z) par rapport au cercle unite :– Les racines du polynome φ(z) sont strictement a l’exterieur du cercle unite. Alors la fonctionψ(z) = 1/φ(z) est analytique sur le disque z : |z| < ρm, ou ρm > 1 est le module de la racinede φ(z) de module le plus petit. En particulier ψ(z) est analytique en 0 et donc ψk = 0 pourk < 0. Il s’en suit que :

Xt =∞∑k=0

ψkZt−k

On note que Xt s’exprime causalement en fonction de Zt dans le sens ou Xt depend uniquementdes valeurs presente et passees de Zt. On dit dans ce cas que le modele autoregressif est causal.

– Les racines du polynome φ(z) sont strictement a l’interieur du cercle unite. Alors la fonction1/φ(z) est analytique dans la couronne z : |z| > ρM, ou ρM < 1 est le module de la racine deφ(z) de module le plus grand. On en deduit que ψk = 0 pour k ≥ 0 et donc que Xt s’exprimeanti-causalement en fonction de Zt, dans le sens ou Xt depend uniquement des valeurs futuresde Zt. On dit dans ce cas que le modele autoregressif est anti-causal.

47

Page 49: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

– Le polynome φ(z) a des racines de part et d’autre du cercle unite. La suite ψk est alors bilaterale.Dans ce cas Xt depend a la fois des valeurs passees, presente et futures de Zt. On dit dans cecas que le modele autoregressif est bilaterale.

Theoreme 4.2.5 (AR(p) causal)L’equation recurrente :

Xt = φ1Xt−1 + · · ·+ φpXt−p + Zt

ou Zt ∼ BB(0, σ2) admet une solution stationnaire au second ordre causale si et seulement si φ(z) =1− φ1z − · · · − φpzp 6= 0 pour |z| ≤ 1. Cette solution est unique et a pour expression :

Xt =∞∑k=0

ψkZt−k (4.18)

ou ψk est la suite des coefficients du developpement en serie de Laurent de 1/φ(z) dans le disquez : |z| ≤ 1.

Demonstration Il nous reste a montrer que, si l’equation recurrente possede une solution station-naire au second ordre causale c’est-a-dire telle que Xt =

∑∞k=0 ψkZt−k avec ψk de module sommable,

alors φ(z) 6= 0 pour |z| ≤ 1. En effet partons de φ(B)Xt = Zt et remplacons Xt par ψ(B)Zt, ou noussupposons que ψ(z) =

∑∞k=0 ψkz

k est analytique pour |z| ≤ 1. Alors on a (φ(B)ψ(B))Zt = Zt et donc

φ(z)ψ(z) = 1 pour |z| ≤ 1

qui implique que φ(z) 6= 0 pour |z| ≤ 1.

Sauf indication contraire nous ne considerons, dans la suite, que des processus autoregressifs causaux.La propriete de causalite joue en effet un role essentiel pour l’estimation des parametres (cf. lesequations de Yule-Walker ci-dessous) ainsi que dans les problemes de prediction etudies au chapitre 5.Par ailleurs, cette restriction n’en est pas vraiment une comme le montre l’exercice suivant :

4.1 Exercice:SoitM(p) un modele AR(p) de parametres σ2, φ1, . . . φp qui admet une solution stationnaire (φ(z) 6= 0 pour|z| = 1). Montrer qu’il existe toujours un modeleM′(p) AR(p) stable et causal possedant la meme fonctiond’autocovariance queM(p) (indication : utiliser des facteurs passe-tout de la forme (a1− z)/(1− a∗1z) ouφ(a1) = 0).

Equations de Yule-Walker

Les equations de Yule-Walker fournissent une relation lineaire entre les parametres φ1, . . . , φp et σ2

de l’equation (4.15), definissant un processus AR(p), et la fonction d’autocovariance de ce processus.Nous nous placons dans le cas ou le processus AR(p) est causal et donc, pour k > 0 E ZtXt−k = 0d’apres (4.18). On en deduit que :

E ZtXt = E ZtZt+

p∑j=1

φjE ZtXt−j = σ2

48

Page 50: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et par suite en remplacant, dans E ZtXt, Zt par Xt −∑p

j=1 φjXt−j il vient :

σ2 = E ZtXt = E

(Xt −p∑j=1

φjXt−j)Xt

= γ(0)−p∑

k=1

φkγ(k) (4.19)

En multipliant, pour k > 0, les deux membres de l’equation (4.15) par Xt−k et en en prenant

l’esperance, on obtient 0 = E ZtXt−k = E

(Xt −∑p

j=1 φjXt−j)Xt−k

. On en deduit que la fonction

d’autocovariance verifie, pour tout k > 0, l’equation de recurrence :

γ(k)−p∑j=1

φjγ(k − j) = 0 (4.20)

En regroupant, sous forme matricielle, les p equations (4.20) pour 1 ≤ k ≤ p, on obtient :γ(0) γ(1) · · · γ(p− 1)γ(1) γ(0) · · · γ(p− 2)

.... . .

γ(p− 1) γ(p− 2) · · · γ(0)

φ1

φ2...φp

=

γ(1)γ(2)

...γ(p)

(4.21)

Les equations (4.19) et (4.21) sont appelees equations de Yule-Walker. Nous retrouverons ces equations,dans le cadre de la prediction lineaire au chapitre 5 (equations (5.8) et (5.9)). Ces equations permettentegalement de determiner les valeurs des parametres du modele a partir d’estimation de la fonctiond’autocovariance (cf. chapitre 7).

Calcul des covariances d’un processus AR(p) causal

Partant des parametres du modele, il est egalement possible de calculer la fonction d’autocovariancedu processus a partir des equations (4.19) et (4.21) en les reecrivant sous la forme

1 −φ1 · · · −φp−φ1 −φp 0

... . ..

. .. ...

−φp 0 · · · 0

+

1 0 · · · 0−φ1 1 · · · 0

.... . .

. . ....

−φp · · · −φ1 1

γ(0)/2γ(1)

...γ(p)

=

σ2

0...0

(4.22)

Partant alors de φ1, . . . , φp, σ2, on calcule γ(0), . . . , γ(p) puis, en utilisant (4.20), on calcule γ(k) pour

tout k > p. Une autre facon de proceder consiste a calculer recursivement la suite ψk en remarquantque 1 = ψ(z)φ(z) = (ψ0 + ψ1z + . . . )(1− φ1z − · · · − φpzp) et donc, par identification, que :

ψ0 = 1, ψ1 = φ1ψ0, ψ2 = φ2ψ0 + φ1ψ1, etc.

puis d’appliquer la formule (4.2) pour un processus d’entree de fonction d’autocovariance σ2δ(h) quis’ecrit

γ(h) = σ2∞∑k=0

ψkψk+|h|

49

Page 51: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Densite spectrale

Reecrivons l’equation (4.15) sous la forme Xt −∑p

k=1 φkXt−k = Zt. Le premier membre est unprocessus stationnaire au second ordre puisque il represente le filtrage, par un filtre de reponse impul-sionnelle finie, du processus Xt. Ce processus possede donc une densite spectrale qui a pour expression∣∣1−∑p

k=1 φke−ikλ

∣∣2 fX(λ) ou fX(λ) designe la densite spectrale de Xt. Cette densite spectrale estaussi egale a celle du second membre Zt, c’est a dire a σ2/2π. Par consequent,

f(λ) =σ2

1∣∣1−∑pk=1 φke

−ikλ∣∣2 (4.23)

4.2.3 Processus ARMA

La notion de processus ARMA generalise les notions de processus MA et AR.

Theoreme 4.2.6 (Existence des processus ARMA(p, q))Soit l’equation recurrente :

Xt − φ1Xt−1 − · · · − φpXt−p = Zt + θ1Zt−1 + · · ·+ θqZt−q (4.24)

ou Zt ∼ BB(0, σ2). On pose φ(z) = 1 − φ1z − · · · − φpzp et θ(z) = 1 + θ1z + · · · + θpzp. On suppose

que φ(z) et θ(z) n’ont pas de zeros communs. Alors l’equation (4.24) admet une solution stationnaireau second ordre si et seulement si le polynome φ(z) 6= 0 pour |z| = 1. Cette solution est unique et apour expression :

Xt =∞∑

k=−∞ψkZt−k (4.25)

ou ψk est la suite des coefficients du developpement en serie de Laurent de θ(z)/φ(z) au voisinage ducercle unite.

Demonstration Comme φ(z) 6= 0 pour |z| = 1, 1/φ(z) est developpable en serie de Laurent auvoisinage du cercle unite, suivant :

ξ(z) =1

φ(z)=

∞∑k=−∞

ξkzk

ou la suite ξk est de module sommable et verifie ξ0 = 1. D’apres le theoreme 4.1.7, nous pouvonsdonc appliquer le filtre de reponse impulsionnelle ξk aux deux membres de l’equation recurrenteφ(B)Xt = θ(B)Zt. Nous obtenons (ξ(B)φ(B))Xt = Xt = ψ(B)Zt ou ψ(B) = ξ(B)θ(B). On en deduitque ψ(z) =

∑k ψkz

k avec :

ψk = ξk +

q∑j=1

θjξk−j

ou ψk est absolument sommable.

Dans le cas ou φ(z) et θ(z) ont des zeros communs, deux configurations sont possibles :

50

Page 52: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

– Les zeros communs ne sont pas sur le cercle unite. Dans ce cas on se ramene au cas sans zerocommun en annulant les facteurs communs.

– Certains des zeros communs se trouvent sur le cercle unite. L’equation (4.24) admet une infinitede solutions stationnaires au second ordre.

Du point de vue de la modelisation, la presence de zeros communs ne presente aucun interet puisqu’elleest sans influence sur la densite spectrale de puissance. Elle conduit de plus a une ambiguıte sur l’ordrereel des parties AR et MA.

ARMA(p, q) causal

Comme dans le cas d’un processus AR(p), on peut distinguer trois cas, suivant que les zeros de φ(z)sont a l’exterieur, a l’interieur ou de part et d’autre du cercle unite. Dans le cas ou les zeros de φ(z) sonta l’exterieur du cercle unite, la suite ξk est causale (ξk = 0 pour k < 0) et donc ψk = ξk +

∑qj=1 θjξk−j

est aussi causale. Par consequent le processus Xt s’exprime causalement en fonction de Zt.

Theoreme 4.2.7 (ARMA(p, q) causal)

Xt − φ1Xt−1 − · · · − φpXt−p = Zt + θ1Zt−1 + · · ·+ θqZt−q (4.26)

ou Zt ∼ BB(0, σ2). On pose φ(z) = 1 − φ1z − · · · − φpzp et θ(z) = 1 + θ1z + · · · + θpzp. On suppose

que φ(z) et θ(z) n’ont pas de zeros communs. Alors l’equation (4.26) admet une solution stationnairecausale au second ordre si et seulement si le polynome φ(z) 6= 0 pour |z| ≤ 1. Cette solution est uniqueet a pour expression :

Xt =∞∑k=0

ψkZt−k (4.27)

ou ψk est la suite des coefficients du developpement en serie de Laurent de θ(z)/φ(z) dans le disquez : |z| ≤ 1.Demonstration Il suffit de remarquer que la condition sur φ(z) implique que 1/φ(z) possede undeveloppement causal au voisinage du cercle unite. ξ(B) correspond donc a une operation de filtragecausal (voir preuve du theoreme 4.2.6 pour les notations), ce qui implique qu’il en va de meme pourξ(B)φ(B).

Calcul des covariances d’un processus ARMA(p, q) causal

Une premiere methode consiste a utiliser l’expression (4.2) qui s’ecrit, compte tenu du fait queZt est un bruit blanc,

γ(h) = σ2∞∑k=0

ψkψk+|h|

ou la suite ψk se determine de facon recurrente a partir de l’egalite ψ(z)θ(z) = φ(z) par identificationdu terme en zk. Pour les premiers termes on trouve :

ψ0 = 1

ψ1 = θ1 + ψ0φ1

ψ2 = θ2 + ψ0φ2 + ψ1φ1

· · ·

51

Page 53: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La seconde methode utilise une formule de recurrence, verifiee par la fonction d’autocovariance d’unprocessus ARMA(p, q), qui s’obtient en multipliant les deux membres de (4.24) par Xt−k et en enprenant l’esperance. On obtient :

γ(k)− φ1γ(k − 1)− · · · − φpγ(k − p) = σ2∑k≤j≤q

θjψj−k pour 0 ≤ k < max(p, q + 1) (4.28)

γ(k)− φ1γ(k − 1)− · · · − φpγ(k − p) = 0 pour k ≥ max(p, q + 1) (4.29)

ou nous avons utilise la causalite du processus pour ecrire que E ZtXt−k = 0 pour tout k ≥ 1.Le calcul de la suite ψk pour k = 1, . . . , p se fait comme precedemment. En reportant ces valeursdans (4.28) pour 0 ≤ k ≤ p, on obtient (p+1) equations lineaires aux (p+1) inconnues (γ(0), . . . , γ(p))que l’on peut resoudre. Pour determiner les valeurs suivantes on utilise l’expression (4.29).

Inversibilite d’un processus ARMA(p, q)

Theoreme 4.2.8 (ARMA(p, q) inversible)Soit Xt un processus ARMA(p, q). On suppose que φ(z) et θ(z) n’ont pas de zeros communs. Alors ilexiste une suite πk causale absolument sommable telle que :

Zt =

∞∑k=0

πkXt−k (4.30)

si et seulement si θ(z) 6= 0 pour z ≤ 1. On dit alors que le modele ARMA(p, q) est inversible. La suiteπk est la suite des coefficients du developpement en serie de φ(z)/θ(z) dans le disque z : |z| ≤ 1.

La preuve de ce theoreme est tout a fait analogue a celle du theoreme 4.2.7. Remarquons que lanotion d’inversibilite, comme celle de causalite, est bien relative au modele ARMA(p, q) lui-meme etpas uniquement au processus Xt comme le montre l’exercice suivant.

4.2 Exercice:Soit Xt un processus stationnaire au second ordre solution de l’equation de recurrence (4.26) ou le modeleARMA(p, q) correspondant est suppose sans zero commun mais pas necessairement inversible. Montrerqu’il existe un bruit blanc Zt tel que Xt soit solution de

φ(B)Xt = θ(B)Zt

ou le modele ARMA(p, q) defini par φ1, . . . φp et θ1, . . . θq est inversible (indication : considerer des facteurspasse-tout).

Un modele ARMA(p, q) est causal et inversible lorsque les racines des polynomes φ(z) et θ(z) sonttoutes situees a l’exterieur du filtre unite. Dans ce cas, Xt et Zt se deduisent mutuellement l’un del’autre par des operations de filtrage causal, la reponse impulsionnelle de chacun de ces filtres etant aphase minimale (c’est a dire inversible causalement).

52

Page 54: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Densite spectrale d’un processus ARMA(p, q)

Theoreme 4.2.9 (Densite spectrale d’un processus ARMA(p, q))Soit Xt un processus ARMA(p, q) (pas necessairement causal ou inversible) defini par φ(B)Xt =θ(B)Zt ou Zt ∼ BB(0, σ2) et ou θ(z) et φ(z) sont des polynomes de degre q et p n’ayant pas de zeroscommuns. Alors Xt possede une densite spectrale qui a pour expression :

f(λ) =σ2

∣∣1 +∑q

k=1 θke−ikλ

∣∣2∣∣1−∑pk=1 φke

−ikλ∣∣2 (4.31)

53

Page 55: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

4.3 Preuves des theoremes 4.1.6 et 4.1.7

Demonstration (Preuve du Theoreme 4.1.6) Notons pour tout t ∈ Z et n ∈ N, |Y |n,t =∑+ns=−n |ψs||Xt−s. La suite |Y |n,tn≥0 est une suite de variables aleatoires integrables. Le theoreme

de convergence domine montre que

limn→∞

E |Y |n,t = E |Y |t

ou |Y |t =∑∞

s=−∞ |ψs||Xt−s|. Comme,

E |Y |n,t =+n∑s=−n

|ψs|E |Xt−s| ≤ supt∈Z

E |Xt|∞∑

s=−∞|ψs| ,

on a donc

E

∞∑s=−∞

|ψs||Xt−s|

<∞ .

Par consequent, il existe un ensemble A ∈ F , verifiant PA = 1 tel que, pour tout ω ∈ A, nous ayons

∞∑s=−∞

|ψs||Xt−s(ω)| <∞

Pour ω ∈ A, la serie de terme generique s 7→ ψsXt−s(ω) est normalement sommable, ce qui impliqueque, pour tout ω ∈ A, la suite n 7→ Yn,t(ω) converge.

Notons, pour tout ω ∈ Ω, Yt(ω) = lim supYn,t(ω). ω 7→ Yt(ω) est une variable aleatoire commelimite superieure de variables aleatoires et pour tout ω ∈ A, nous avons limn→∞ Yn,t(ω) = Yt(ω) etdonc la suite n 7→ Yn,t converge P-p.s vers Yt.

Remarquons egalement que la suite n 7→ Yn,t est une suite de Cauchy dans L1(Ω,F ,P). En effet,pour tout p ≥ q, nous avons :

E |Yp,t − Yq,t| ≤ supt∈Z

E |Xt|p∑

s=q+1

|ψs| −→q,p→∞

0

Fixons ε > 0 et choisissons n tel que

supp,q≥n

E |Yp,t − Yq,t| ≤ ε

Par application du lemme de Fatou nous avons alors, pour tout q ≥ n,

E

lim infp→∞

|Yp,t − Yq,t|

= E |Yt − Yq,t| ≤ lim infp→∞

E |Yp,t − Yq,t| ≤ ε

et donc lim supq→∞ E |Yq,t − Yt| ≤ ε. Comme ε est arbitraire, nous avons donclimq→∞ E |Yq,t − Yt| = 0. L’inegalite triangulaire

E |Yt| ≤ E |Yt − Yn,t|+ E |Yn,t|

54

Page 56: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

montre enfin que Yt ∈ L1(Ω,F ,P). Considerons maintenant le cas ou supt∈Z EX2t

<∞. Remarquons

tout d’abord que E |Xt| ≤ (EX2t

)1/2 et donc que cette condition implique que supt∈Z E |Xt| <

∞. La suite m 7→ Ym,t est une suite de Cauchy dans L2(Ω,F ,P). En effet, pour p ≥ q, nous avons

E

(Yp,t − Yq,t)2

= E

p∑

s=q+1

ψsXt−s

2

=

p∑j,k=q+1

ψjψkE Xt−jXt−k

≤p∑

j,k=q+1

|ψj ||ψk| supt∈Z

EX2t

= sup

t∈ZEX2t

p∑j=q+1

|ψj |

2

Comme precedemment fixons ε > 0 et choisissons n tel que :

supp,q≥n

E|Yp,t − Yq,t|2

≤ ε.

Par application du lemme de Fatou, nous avons :

E

lim infp→∞

(Yp,t − Yq,t)2

= E

(Yt − Yq,t)2

≤ lim inf

p→∞E

(Yp,t − Yq,t)2≤ ε

et donc : lim supq→∞ E

(Yt − Yq,t)2≤ ε. Comme ε est arbitraire, lim supq→∞ E

(Yt − Yq,t)2

= 0, en

d’autres termes, la suite Yq,tq≥0 converge en moyenne quadratique vers Yt. Finalement, nous avons :

EY 2t

≤ 2(E

(Yt − Yq,t)2

+ E

Y 2q,t

) <∞

et Yt est donc une variable de carre integrable.

Demonstration (Preuve du Theoreme 4.1.7) Comme E∑∞

s=−∞ |ψs|E |Xt−s|

< ∞, letheoreme de Fubini implique

E

∞∑s=−∞

ψsXt−s

=

∞∑s=−∞

ψsE Xt−s

ce qui etablit (4.1). Pour la fonction d’autocovariance, notons tout d’abord que, pour tout n, leprocessus Yn,t =

∑ns=−n ψsXt−s est stationnaire au second ordre et que nous avons

cov(Yn,t, Yn,t+h) =n∑

j=−n

n∑k=−n

ψjψkγX(h+ k − j)

Remarquons ensuite que

cov(Yt, Yt+h) = cov(Yn,t + (Yt − Yn,t), Yn,t+h + (Yt+h − Yn,t+h))

= cov(Yn,t, Yn,t+h) + cov(Yt − Yn,t, Yn,t+h)

+ cov(Yn,t, Yt+h − Yn,t+h) + cov(Yt − Yn,t, Yt+h − Yn,t+h)

= A+B + C +D

55

Page 57: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

L’inegalite :

var(Yn,t − Yt) = limp→∞

var(Yn,t − Yp,t) ≤

∞∑j=n+1

|ψj |

2

γX(0)

permet ensuite de deduire, quand n tend vers l’infini, les limites suivantes

|B| ≤ (var(Yt − Yn,t))1/2(var(Yn,t+h))1/2 → 0

|C| ≤ (var(Yt+h − Yn,t+h))1/2(var(Yn,t))1/2 → 0

|D| ≤ (var(Yt+h − Yn,t+h))1/2(var(Yt − Yn,t))1/2 → 0

et donc cov(Yt, Yt+h) = limn→∞ cov(Yn,t, Yn,t+h), ce qui demontre l’expression (4.2) 1. En reportantdans cette expression γX(h) =

∫I eihλνX(dλ) ou νX designe la mesure spectrale du processus Xt,

nous obtenons

γY (h) =∞∑

j=−∞

∞∑k=−∞

ψjψk

∫I

ei(h+k−j)λνX(dλ)

En remarquant ensuite que

∞∑j=−∞

∞∑k=−∞

∫I|ψj ||ψk|νX(dλ) ≤ γX(0)

∞∑j=−∞

|ψj |

2

nous pouvons appliquer le theoreme de Fubini et permuter les signes somme et integrale dans l’ex-pression de γY (h). Ce qui donne :

γY (h) =

∫I

eihλ∞∑

j=−∞

∞∑k=−∞

ψjψkeikλe−ijλ =

∫I

eihλ|ψ(e−iλ)|2νX(dλ)

On en deduit que νY (dλ) = |ψ(e−iλ)|2νX(dλ). Pour determiner l’expression de l’intercovariance entreles processus entre les processus Yt et Xt, il suffit de noter |cov(Yt+h, Xt)|2 ≤ γY (0)γX(0) < +∞ etque :

E (Yt+h − µY )(Xt − µX) = limn→∞

cov(Yn,t+h, Xt) = limn→∞

n∑k=−n

ψkcov(Xt+h−kXt)

=

∞∑k=−∞

ψkγX(h− k)

Ce qui conclut la preuve.

1. Nous venons ici de demontrer directement la propriete de continuite de la covariance dans L2 que nous verronscomme une consequence de la structure d’espace de Hilbert au chapitre 5.

56

Page 58: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 5

Prediction des processus stationnairesau second ordre

5.1 Prediction lineaire

5.1.1 Estimation lineaire en moyenne quadratique

Soient X et Y1, · · · , Yp des variables aleatoires reelles de L2(Ω,F ,P). On cherche a determinerla meilleure approximation de X par une combinaison lineaire des variables Yk. Nous supposons icique nous connaissons les quantites µ = E X, νk = E Yk ainsi que les coefficients de covariancecov(X,Yk) et cov(Yk, Y`), pour tout 1 ≤ k, ` ≤ p. En pratique, nous verrons au chapitre 7 comment ilest possible, sous certaines hypotheses, de construire des estimateurs consistants et asymptotiquementnormaux de ces quantites a partir d’une suite d’observations.

On considere l’espace ferme de dimension finie Y = span (1, Y1, · · · , Yp) et on cherche l’elementY ∈ Y qui minimise la norme de le risque quadratique ‖X − Y ‖2. Il decoule immediatement dutheoreme de projection que le predicteur lineaire optimal est la projection orthogonale proj (X| Y) deX sur Y qui verifie (X − proj (X| Y)) ⊥ Y. On en deduit que :

〈X − proj (X| Y) , 1〉 = 0

〈X − proj (X| Y) , Yk〉 = 0 pour k ∈ 1, · · · , p. (5.1)

Ce sont ces (p + 1) equations qui vont nous donner la solution cherchee. En effet la conditionproj (X| Y) ∈ Y implique (comme Y est de dimension finie) que proj (X| Y) = a0 +

∑pk=1 ak(Yk− νk).

Il suffit donc de calculer a0, a1, . . . , ap. Partant de la premiere expression de (5.1), on obtient :

〈X − a0 −p∑

k=1

ak(Yk − νk), 1〉 = 〈X, 1〉 − a0 = 0 , (5.2)

qui donne a0 = µ. En posant a0 = µ dans la seconde expression de (5.1), on a obtient alors k ∈1, . . . , p :

〈X − µ−p∑j=1

aj(Yj − νj), Yk − νk〉 = 〈X − µ, Yk − νk〉 −p∑j=1

aj〈Yj − νj , Yk − νk〉 = 0 , (5.3)

57

Page 59: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

qui montrent que a1, · · · , ap sont solution d’un systeme de p equations lineaires a p inconnues.Ce systeme d’equations peut se mettre sous forme plus compacte en utilisant la matrice

Γ = [cov(Yk, Y`)]1≤k,`≤p des coefficients de covariance de (Y1, · · · , Yp) et le vecteur γ =[cov(X,Y1), · · · , cov(X,Yp)]

T des coefficients de covariance entre X et les composantes Yk. Avec cesnotations, le vecteur α = [a1, · · · , ap]T est solution de l’equation :

Γα = γ (5.4)

Ce systeme lineaire admet une unique solution si la matrice Γ est inversible. Notons enfin qu’en vertude l’identite de Pythagore, nous avons :

‖X‖2 = ‖ proj (X| Y) ‖2 + ‖X − proj (X| Y) ‖2

et donc la norme minimale de l’erreur de prediction a pour expression :

‖X − proj (X| Y) ‖2 = ‖X‖2 − ‖ proj (X| Y) ‖2 .

Nous allons a present appliquer ce resultat a la prediction d’un processus stationnaire au second-ordrea partir de son passe immediat en prenant X = Xt et Yk = Xt−k avec k = 1, . . . , p.

5.1.2 Prediction lineaire d’un processus stationnaire au second-ordre

Soit Xt, t ∈ Z un processus stationnaire au second-ordre, de moyenne E X0 = µ et de fonctiond’autocovariance γ(h) = cov(Xh, X0). On cherche a predire la valeur du processus a la date t a partird’une combinaison lineaire des p derniers echantillons du passe Xt−1, · · · , Xt−p. Ce probleme estbien entendu un cas particulier du probleme precedent ou nous avons X = Xt et Yk = Xt−k, pourk ∈ 1, . . . , p et ou :

Ht−1,p = span (1, Xt−1, Xt−2, · · · , Xt−p) (5.5)

Formons la matrice de covariance Γp du vecteur [Xt−1, · · · , Xt−p] :

Γp =

γ(0) γ(1) · · · γ(p− 1)

γ(1) γ(0) γ(1)...

.... . .

. . .. . .

... γ(1)γ(p− 1) γ(p− 2) · · · γ(1) γ(0)

(5.6)

Cette matrice est dite de Toeplitz, ses elements etant egaux le long de ses diagonales. Notons γp le

vecteur [γ(1), γ(2), · · · , γ(p)]T le vecteur des coefficients de correlation. D’apres l’equation (5.4), lescoefficients φk,p1≤k≤p du predicteur lineaire optimal defini par :

proj (Xt|Ht−1,p)− µ =

p∑k=1

φk,p(Xt−k − µ) (5.7)

sont solutions du systeme d’equations :

Γpφp = γp (5.8)

58

Page 60: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

D’autre part l’erreur de prediction minimale a pour expression :

σ2p = ‖Xt − proj (Xt|Ht−1,p) ‖2 = 〈Xt − µ,Xt − proj (Xt|Ht−1,p)〉

= γ(0)−p∑

k=1

φk,pγ(k) = γ(0)− φTp γp (5.9)

Les equations (5.8) et (5.9) sont appelees equations de Yule-Walker. Notons la propriete importantesuivante : pour p fixe, la suite des coefficients φk,p1≤k≤p du predicteur lineaire optimal et la variancede l’erreur minimale de prediction ne dependent pas de t. Les equations (5.8) et (5.9) peuvent encoreetre reecrites a partir des coefficients de correlation ρ(h) = γ(h)/γ(0). Il vient :

ρ(0) ρ(1) · · · ρ(p− 1)

ρ(1) ρ(0) ρ(1)...

.... . .

. . .. . .

... ρ(1)ρ(p− 1) ρ(p− 2) · · · ρ(1) ρ(0)

φ1,p

φ2,p......

φp,p

=

ρ(1)ρ(2)

...

...ρ(p)

(5.10)

5.1 Exemple (Prediction avant/arriere):Soit Xt = Zt + θ1Zt−1 ou Zt ∼ BB(0, σ2). On note ρ(h) la fonction d’autocorrelation de Xt.

1. ρ(0) = (1 + θ21), ρ(±1) = θ1 et ρ(h) = 0 pour |h| ≥ 2.

2. Determinons la prediction de X3 en fonction de X2 et X1. D’apres le theoreme de projectionproj (X3| span (X2, X1)) = α1X1 + α2X2 verifie 〈X3 − α2X2 − α1X1, Xj〉 = 0 pour j = 1, 2.On en deduit que : [

1 + θ21 θ1

θ1 1 + θ21

] [α2

α1

]=

[θ1

0

]3. Determinons la prediction de X3 en fonction de X4 et X5. D’apres le theoreme de projection

proj (X3| span (X4, X5)) = α4X4 + α5X5 verifie 〈X3 − α4X4 − α5X5, Xj〉 = 0 pour j = 4, 5.On en deduit que : [

1 + θ21 θ1

θ1 1 + θ21

] [α4

α5

]=

[θ1

0

]Par consequent α1 = α5 et α2 = α4.

4. Determinons la prediction de X3 en fonction de X1, X2, X4 et X5. Pour determinerproj (X3| span (X1, X2, X4, X5)) = β1X1 + β2X2 + β4X4 + β5X5 Il suffit de remarquer quespan (X1, X2) ⊥ span (X4, X5) et donc :

proj (X3| span (X1, X2, X4, X5)) = proj (X3| span (X1, X2)) + proj (X3| span (X4, X5))

5.2 Exemple (Cas d’un processus AR(m) causal):Soit le processus AR(m) causal solution stationnaire de l’equation recurrente :

Xt = φ1Xt−1 + · · ·+ φmXt−m + Zt

ou Zt ∼ B(0, σ2) et ou φ(z) = 1 −∑m

k=1 φkzk 6= 0 pour |z| ≤ 1. Comme la solution est causale on a,

pour tout h ≥ 1, E ZtXt−h = 0 et donc E (Xt −∑m

k=1 φkXt−k)Xt−h = 0 qui signifie que, pour toutp ≥ m,

59

Page 61: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

1. (Xt −∑m

k=1 φkXt−k) ⊥ Ht−1,p

2.∑m

k=1 φkXt−k ∈ Ht−1,p.

Par consequent, d’apres le theoreme de projection,∑m

k=1 φkXt−k = proj (Xt|Ht−1,p) et donc, pour toutp ≥ m :

φk,p =

φk pour 1 ≤ k ≤ m0 pour k > m

.

La projection orthogonale d’un AR(m) causal sur son passe de longueur p ≥ m coıncide avec la projectionorthogonale sur les m dernieres valeurs et les coefficients de prediction sont precisement les coefficients del’equation recurrente.

Dans le cas ou la matrice de covariance Γp, supposee connue, est inversible, le probleme de ladetermination des coefficients de prediction φp et de la variance de l’erreur de prediction σ2

p a unesolution unique. Rappelons que, d’apres la propriete 3.3.5, si γ(0) > 0 et si limn→∞ γ(n) = 0, alors lamatrice Γp est inversible a tout ordre.

Il est facile de demontrer que :

proj (Xt| span (1, Xt−1, . . . , Xt−p)) = µ+ proj (Xt − µ| span (Xt−1 − µ, . . . ,Xt−p − µ)) . (5.11)

Par consequent, dans le probleme de la prediction, il n’y a aucune perte de generalite a considererque le processus est centre. S’il ne l’etait pas, il suffirait, d’apres l’equation (5.11), d’effectuer le calculdes predicteurs sur le processus centre Xc

t = Xt − µ puis d’ajouter µ. Dans la suite, sauf indicationcontraire, les processus sont supposes centres.

Les coefficients de prediction d’un processus stationnaire au second ordre fournissent unedecomposition particuliere de la matrice de covariance Γp+1 sous la forme d’un produit de matricetriangulaire.

Theoreme 5.1.1Soit Xt un processus stationnaire au second ordre, centre, de fonction d’autocovariance γ(h). Onnote :

Ap+1 =

1 0 · · · · · · 0

−φ1,1 1. . .

......

. . .. . .

......

. . . 0−φp,p −φp−1,p · · · −φ1,p 1

Dp+1 =

σ2

0 0 · · · 00 σ2

1 · · · 0...

...0 · · · σ2

p

On a alors :

Γp+1 = A−1p+1Dp+1A

−Tp+1 (5.12)

Demonstration Posons Fk = span (Xk, · · · , X1) et montrons tout d’abord que, pour k 6= `, nousavons :

〈Xk − proj (Xk| Fk−1) , X` − proj (X`| F`−1)〉 = 0 . (5.13)

En effet, pour k < `, on a Xk−proj (Xk| Fk−1) ∈ Fk ⊆ F`−1. On a aussi X`−proj (X`| F`−1) ⊥ F`−1 etdonc X`−proj (X`| F`−1) ⊥ Xk−proj (Xk| Fk−1), ce qui demontre (5.13). D’autre part, par definition

60

Page 62: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

des coefficients de prediction, on peut ecrire successivement :

Ap+1Xp+1 =

1 0 · · · 0−φ1,1 1 · · · 0...

...−φp,p −φp−1,p · · · 1

X1

X2...Xp+1

=

X1

X2 − proj (X2| F1)...Xp+1 − proj (Xp+1| Fp)

qui donne :

EAp+1Xp+1X

Tp+1A

Tp+1

= Ap+1Γp+1A

Tp+1 = Dp+1

ou, par definition, σ2k = ‖Xk − proj (Xk| Fk−1) ‖2, ce qui demontre (5.12) puisque la matrice Ap+1 est

inversible, son determinant etant egal a 1. Ajoutons que l’inverse d’une matrice triangulaire superieureest elle-meme triangulaire superieure.

Dans la suite nous notonsHt−1,p = span (Xt−1, . . . , Xt−p) et nous appelons erreur de prediction directed’ordre p ou innovation partielle d’ordre p le processus :

ε+t,p = Xt − proj (Xt|Ht−1,p) = Xt −p∑

k=1

φk,pXt−k (5.14)

D’apres l’equation (5.12) lorsque la matrice Γp+1 est inversible, la variance σ2p = ‖ε+t,p‖2 est strictement

positive. Il est clair, d’autre part, que la suite σ2p est decroissante et donc que σ2

p possede une limitequand p tend vers l’infini. Cela conduit a la definition suivante, dont nous verrons paragraphe 5.5qu’elle joue un role fondamental dans la decomposition des processus stationnaires au second ordre.

Definition 5.1.2 (Processus regulier/deterministe)Soit Xt, t ∈ Z un processus aleatoire stationnaire au second ordre. On note σ2

p la variance del’innovation partielle d’ordre p et σ2 = limp→+∞ σ

2p. On dit que le processus Xt, t ∈ Z est regulier

si σ2 > 0 et deterministe si σ2 = 0.

Nous avons deja note (voir equation (5.8)) que, pour p fixe, la suite φk,p ne depend pas de t et doncque le processus ε+t,p (relativement a l’indice t) est stationnaire au second ordre, centre. On a aussi laformule suivante :

〈ε+t,p, ε+t,q〉 = σ2

max(p,q) . (5.15)

En effet soit q > p. Par construction, nous avons ε+t,q ⊥ Ht−1,q, et comme Ht−1,p ⊆ Ht−1,q, ε+t,q ⊥ Ht−1,p

et en particulier ε+t,q ⊥ proj (Xt|Ht−1,p) puisque proj (Xt|Ht−1,p) ∈ Ht−1,p. Par consequent, pourq > p, on a :

(ε+t,p, ε+t,q) = 〈Xt − proj (Xt|Ht−1,p) , ε

+t,q〉

= 〈Xt, Xt − proj (Xt|Ht−1,q)〉 = 〈Xt, Xt − proj (Xt|Ht−1,q)〉 = σ2q ,

ce qui demontre (5.15).Notons ici que le probleme de la recherche des coefficients de prediction pour un processus station-

naire au second ordre se ramene a celui de la minimisation de l’integrale :

1

∫ π

−π|ψ(e−iλ)|2νX(dλ)

61

Page 63: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

sur l’ensemble Pp des polynomes a coefficients reels de degre p de la forme ψ(z) = 1+ψ1z+ · · ·+ψpzp.

En effet, en utilisant la relation (4.3) de filtrage des mesures spectrales, on peut ecrire que la variancede ‖ε+t,p‖2, qui minimise de l’erreur de prediction, a pour expression :

σ2p =

1

∫ π

−π|φp(e−iλ)|2νX(dλ) (5.16)

ou :

φp(z) = 1−p∑

k=1

φk,pzk

designe le polynome predicteur d’ordre p.

Theoreme 5.1.3Si Xt est un processus regulier, alors, pour tout p, φp(z) 6= 0 pour |z| ≤ 1. Tous les zeros despolynomes predicteurs sont a l’exterieur du cercle unite.

Demonstration Elle est donnee en fin de chapitre.

Une consequence directe du theoreme 5.1.3 est qu’a toute matrice de covariance de type defini positif,de dimension (p+ 1)× (p+ 1), on peut associer un processus AR(p) causal dont les (p+ 1) premierscoefficients de covariance sont precisement la premiere ligne de cette matrice. Ce resultat n’est pasgeneral. Ainsi il existe bien un processus AR(2) causal ayant γ(0) = 1 et γ(1) = ρ, comme premierscoefficients de covariance, a condition toutefois que la matrice de covariance soit positive c’est-a-direque |ρ| < 1, tandis qu’il nexiste pas, pour cette meme matrice de processus MA(2). Il faut en effet, enplus du caractere positif, que |ρ| ≥ 1/2 (voir exemple 3.5).

5.2 Algorithme de Levinson-Durbin

La solution directe du systeme des equations de Yule-Walker requiert de l’ordre de p3 operations : laresolution classique de ce systeme implique en effet la decomposition de la matrice Γp sous la forme duproduit d’une matrice triangulaire inferieure et de sa transposee, Γp = LpL

Tp (decomposition de Cho-

leski) et la resolution par substitution de deux systemes triangulaires. Cette procedure peut s’averercouteuse lorsque l’ordre de prediction est grand (on utilise generalement des ordres de prediction del’ordre de quelques dizaines a quelques centaines), ou lorsque, a des fins de modelisation, on est amenea evaluer la qualite de prediction pour differents horizons de prediction. L’algorithme de Levinson-Durbin exploite la structure geometrique particuliere des processus stationnaires au second ordre pouretablir une formule de recurrence donnant les coefficients de prediction a l’ordre (p + 1) a partirdes coefficients de prediction obtenus a l’ordre p. Supposons que nous connaissions les coefficients deprediction lineaire et la variance de l’erreur de prediction a l’ordre p, pour p ≥ 0 :

proj (Xt|Ht−1,p) =

p∑k=1

φk,pXt−k et σ2p = ‖Xt − proj (Xt|Ht−1,p) ‖2 (5.17)

Nous avons besoin ici d’introduire l’erreur de prediction retrograde a l’ordre p definie par :

ε−t,p = Xt − proj (Xt|Ht+p,p) = Xt − proj (Xt| span (Xt+1, · · · , Xt+p))

62

Page 64: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Elle represente la difference entre l’echantillon courant Xt et la projection orthogonale de Xt sur lesp echantillons Xt+1, · · · , Xt+p qui suivent l’instant courant. Le qualificatif retrograde est clair :il traduit le fait que l’on cherche a predire la valeur courante en fonction des valeurs futures. Indi-quons que l’erreur retrograde joue un role absolument essentiel dans tous les algorithmes rapides deresolution des equations de Yule-Walker. Remarquer tout d’abord que les coefficients de predictionretrograde coıncident avec les coefficients de prediction directe. Cette propriete, que nous avons ren-contree exemple 5.1, est fondamentalement due a la propriete de reversibilite des processus station-naires au second ordre. En effet, si Yt = X−t, alors Yt a meme moyenne et meme fonction de covarianceque Xt (voir exemple 3.1 chapitre 1) et par consequent, en utilisant aussi l’hypothese de stationnarite,on a simultanement pour tout u, v ∈ Z :

proj (Xt+u|Ht+u−1,p) =

p∑k=1

φk,pXt+u−k et proj (Xt+v|Ht+v+p,p) =

p∑k=1

φk,pXt+v+k

ainsi que :

σ2p = ‖ε+t+u,p‖2 = ‖ε−t+v,p‖2 (5.18)

En particulier on a :proj (Xt|Ht−1,p) =

∑pk=1 φk,pXt−k

proj (Xt−p−1|Ht−1,p) =∑p

k=1 φk,pXt−p−1+k =∑p

k=1 φp+1−k,pXt−p−1+k

. (5.19)

Cherchons maintenant a determiner, a partir de ces projections a l’ordre p, la projection de Xt a l’ordrep + 1 sur le sous-espace Ht−1,p+1 = span (Xt−1, · · · , Xt−p−1). Pour cela decomposons cet espace ensomme directe de la facon suivante :

Ht−1,p+1 = Ht−1,p ⊕ span (Xt−p−1 − proj (Xt−p−1|Ht−1,p)) = Ht−1,p ⊕ span(ε−t−p−1,p

)Un calcul simple montre (voir exemple 2.7) que

proj(Xt| ε−t−p−1,p

)= αε−t−p−1,p avec α = (Xt, ε

−t−p−1,p)/‖ε

−t−p−1,p‖

2

et donc que

proj (Xt|Ht−1,p+1) = proj (Xt|Ht−1,p) + kp+1 [Xt−p−1 − proj (Xt−p−1|Ht−1,p)] , (5.20)

ou, en utilisant aussi (5.18), on peut ecrire :

kp+1 =〈Xt, ε

−t−p−1,p〉σ2p

=〈Xt, ε

−t−p−1,p〉

‖ε+t+u,p‖‖ε−t+v,p‖

. (5.21)

En portant a present (5.19) dans (5.20), on obtient l’expression :

proj (Xt|Ht−1,p+1) =

p+1∑k=1

φk,p+1Xt−k =

p∑k=1

(φk,p − kp+1φp+1−k,p)Xt−k + kp+1Xt−p−1

63

Page 65: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

On en deduit les formules de recurrence donnant les coefficients de prediction a l’ordre p+ 1 a partirde ceux a l’ordre p :

φk,p+1 = φk,p − kp+1φp+1−k,p pour k ∈ 1, · · · , pφp+1,p+1 = kp+1

(5.22)

Determinons maintenant la formule de recurrence donnant kp+1. En utilisant encore (5.19) et (5.20),on obtient :

〈Xt, proj (Xt−p−1|Ht−1,p)〉 =

p∑k=1

φk,pE XtXt−p−1+k =

p∑k=1

φk,pγ(p+ 1− k)

Partant de l’expression de 〈Xt, ε−t−p−1,p〉 on en deduit que :

〈Xt, ε−t−p−1,p〉 = 〈Xt, Xt−p−1 − proj (Xt−p−1|Ht−1,p)〉 = γ(p+ 1)−

p∑k=1

φk,pγ(p+ 1− k)

et donc d’apres (5.21) :

kp+1 =γ(p+ 1)−

∑pk=1 φk,pγ(p+ 1− k)

σ2p

Il nous reste maintenant a determiner l’erreur de prediction σ2p+1 a l’ordre (p+1). En utilisant l’equation

(5.20), on a

ε+t,p+1 = Xt − proj (Xt|Ht−1,p+1) = Xt − proj (Xt|Ht−1,p)− kp+1(Xt−p−1 − proj (Xt−p−1|Ht−1,p))

dont on deduit d’apres (5.21) :

σ2p+1 = ‖ε+t,p+1‖

2 = σ2p + k2

p+1σ2p − 2kp+1〈Xt − proj (Xt|Ht−1,p) , Xt−p−1 − proj (Xt−p−1|Ht−1,p)〉

= σ2p(1− k2

p+1)

Pour initialiser l’algorithme, nous faisons p = 0. Dans ce cas la meilleure prediction de Xt estE Xt = 0 et la variance de l’erreur de prediction est alors donnee par σ2

0 = E

(Xt − 0)2

= γ(0).Au pas suivant on a k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ2

1 = γ(0)(1− k21).

Partant d’une suite de (K+ 1) coefficients de covariance γ(0), . . . , γ(K), l’algorithme de Levinson-Durbin permet de determiner les coefficients de prediction φm,p1≤m≤p,1≤p≤K :

Initialisation k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ21 = γ(0)(1− k2

1)

Recursion Pour p = 2, . . . ,K repeter :– Calculer

kp = σ−2p−1

(γ(p)−

p−1∑k=1

φk,p−1γ(p− k)

)φp,p = kp

σ2p = σ2

p−1(1− k2p)

64

Page 66: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

– Pour m ∈ 1, · · · , p− 1 calculer :

φm,p = φm,p−1 − kpφp−m,p−1

Le coefficient kp possede la propriete remarquable d’etre de module inferieur a 1. Notons tout d’abordque proj (Xt|Ht−1,p) ⊥ ε−t−p−1,p puisque proj (Xt|Ht−1,p) ∈ Ht−1,p et que ε−t−p−1,p ⊥ Ht−1,p. Partantde (5.21) on peut ecrire que :

kp+1 =〈Xt − proj (Xt|Ht−1,p) , Xt−p−1 − proj (Xt−p−1|Ht−1,p)〉

‖ε+t,p‖ ‖ε−t−p−1,p‖

=〈ε+t,p, ε

−t−p−1,p〉

‖ε+t,p‖ ‖ε−t−p−1,p‖

(5.23)

En utilisant l’inegalite de Schwarz, on montre que |kp+1| ≤ 1. Remarquons aussi que kp+1 ap-paraıt comme le coefficient de correlation entre l’erreur de prediction directe et l’erreur de predictionretrograde. Dans la litterature ce coefficient est appele coefficient d’autocorrelation partielle.

Definition 5.2.1 (Fonction d’autocorrelation partielle)Soit Xt un processus aleatoire, stationnaire au second ordre, de fonction de covariance γ(h). On appellefonction d’autocorrelation partielle la suite kp, p ≥ 1 definie par :

kp =

corr(Xt, Xt−1) = 〈Xt,Xt−1〉‖Xt‖ ‖Xt−1‖ pour p = 1

corr(ε+t,p−1, ε−t−p,p−1) =

〈Xt − proj (Xt|Ht−1,p−1) , Xt−p − proj (Xt−p|Ht−1,p−1)〉‖Xt − proj (Xt|Ht−1,p−1) ‖ ‖Xt−p − proj (Xt−p|Ht−1,p−1) ‖

pour p ≥ 2.

(5.24)

Dans (5.24), l’expression pour p = 1 est en accord avec celle pour p ≥ 2 dans la mesure ou on peutnoter que ε+t,0 = Xt et que ε−t−1,0 = Xt−1. Notons aussi que, dans l’expression de kp, Xt et Xt−p sontprojetes sur le meme sous-espace span (Xt−1, . . . , Xt−p+1). Le resultat remarquable est que la suitedes coefficients de correlation partielle est donnee par :

kp = φp,p (5.25)

ou φp,p est defini au moyen des equations de Yule-Walker (5.10). Dans le cas particulier d’un processusAR(m) causal, on a alors :

kp =

φp,p pour 1 ≤ p < mφm pour p = m0 pour p > m

Notons enfin que contrairement a la fonction d’autocorrelation partielle d’un processus AR(m) quiverifie kp = 0 pour tout p ≥ m, nous avons pour un processus MA(q), kp 6= 0 pour un nombre infinide termes. Il est toutefois possible de montrer qu’il existe un reel ρ, 0 < ρ < 1, et une constante C,telle que, pour tout p ≥ 1, |kp| ≤ Cρk.

5.3 Algorithme de Schur

Partant des coefficients d’autocorrelation, l’algorithme de Levinson-Durbin evalue a la fois lescoefficients des predicteurs lineaires optimaux et les coefficients d’autocorrelation partielle. Dans cer-tains cas, seuls les coefficients d’autocorrelation partielle sont necessaires. Il en est ainsi, par exemple,

65

Page 67: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

lorsque l’on cherche a calculer les erreurs de prediction directe et retrograde a partir du processus Xt.Montrons, en effet, que les erreurs de prediction a l’ordre (p+ 1) s’expriment, en fonction des erreursde predictions a l’ordre p, a l’aide d’une formule de recurrence ne faisant intervenir que la valeur ducoefficient de correlation partielle :

ε+t,p+1 = ε+t,p − kp+1ε−(t−1)−p,p

ε−t−(p+1),p+1 = ε−(t−1)−p,p − kp+1εt,p(5.26)

Reprenons les expressions de l’erreur de prediction directe et de l’erreur de prediction retrograde :

ε+t,p = Xt −p∑

k=1

φk,pXt−k et ε−t−p−1,p = Xt−p−1 −p∑

k=1

φk,pXt−p−1+k

En utilisant directement la recursion de Levinson-Durbin, equations (5.22), dans l’expression de l’erreurde prediction directe a l’ordre p+ 1, nous obtenons :

ε+t,p+1 = Xt −p+1∑k=1

φk,p+1Xt−k

=

(Xt −

p∑k=1

φk,pXt−k

)− kp+1

(Xt−p−1 −

p∑k=1

φk,pXt−p−1+k

)= ε+t,p − kp+1ε

−t−p−1,p (5.27)

De facon similaire, nous avons :

ε−t−p−1,p+1 = Xt−p−1 −p+1∑k=1

φk,p+1Xt−p−1+k

=

(Xt−p−1 −

p∑k=1

φk,pXt−p−1+k

)− kp+1

(Xt −

p∑k=1

φk,pXt−k

)= ε−t−p−1,p − kp+1ε

+t,p (5.28)

Partant de la suite des autocorrelations, l’algorithme de Schur calcule recursivement les coefficients decorrelation partielle, sans avoir a determiner les valeurs des coefficients de prediction. Historiquement,l’algorithme de Schur a ete introduit pour tester le caractere defini positif d’une suite (ou de faconequivalente, la positivite des matrices de Toeplitz construites a partir de cette suite). En effet, commenous l’avons montre ci-dessus, une suite de coefficients de covariance est definie positive si et seulementsi les coefficients de correlation partielle sont de module strictement inferieur a 1. Determinons a presentcet algorithme. En faisant t = 0 dans l’equation (5.27), en multipliant a gauche par Xm et en utilisantla stationnarite, il vient :

〈Xm, ε+0,p+1〉 = 〈Xm, ε

+0,p〉 − kp+1〈Xm, ε

−−p−1,p〉 = 〈Xm, ε

+0,p〉 − kp+1〈Xm+p+1, ε

−0,p〉 . (5.29)

En faisant t = p + 1 dans l’equation (5.28), en multipliant a gauche par Xm+p+1 et en utilisant lastationnarite, il vient :

〈Xm+p+1, ε−0,p+1〉 = 〈Xm+p+1, ε

−0,p〉 − kp+1〈Xm+p+1, ε

+p+1,p〉

= 〈Xm+p+1, ε−0,p〉 − kp+1〈Xm, ε

+0,p〉 . (5.30)

66

Page 68: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En faisant m = 0 dans (5.30), il vient :

〈Xp+1, ε−0,p+1〉 = 〈Xp+1, ε

−0,p〉 − kp+1〈Xp+1, ε

+p+1,p〉 = 〈Xp+1, ε

−0,p〉 − kp+1〈X0, ε

+0,p〉 . (5.31)

Mais on a aussi :

〈Xp+1, ε−0,p+1〉 = 〈Xp+1, X0 − proj (X0| span (X1, · · · , Xp+1))〉 = 0 .

Nous pouvons donc deduire de l’equation (5.31) :

kp+1 =〈Xp+1, ε

−0,p〉

〈X0, ε+0,p〉

(5.32)

En couplant les equations (5.29), (5.30) et (5.32) et en partant des conditions initiales :

〈Xm, ε+0,0〉 = γ(m) et 〈Xm+1, ε

−0,0〉 = γ(m+ 1) .

on peut determiner les coefficients de correlation partielle directement, sans avoir a evaluer explicite-ment les coefficients de prediction.

On note u(m, p) = 〈Xm, ε+0,p〉 et v(m, p) = 〈Xm+p+1, ε

−0,p〉. Partant des (K + 1) coefficients de

covariance γ(0), . . . , γ(K), l’algorithme de Schur calcule les K premiers coefficients de correlationpartielle :

Initialisation Pour m = 0, . . . ,K − 1 :

u(m, 0) = γ(m)

v(m, 0) = γ(m+ 1)

Recursion – Pour p = 1, . . . ,K, calculer

kp =v(0, p− 1)

u(0, p− 1)

– Pour m = 0, . . . ,K − p− 1 calculer :u(m, p) = u(m, p− 1)− kpv(m, p− 1)

v(m, p) = v(m+ 1, p− 1)− kpu(m+ 1, p− 1).

La complexite de l’algorithme de Schur est equivalente a l’algorithme de Levinson.

Filtres en treillis

En notant e(t, p) = [ε+t,p ε−t−p,p]T et en utilisant l’operateur de retard D, les expressions (5.26)

peuvent se mettre sous la forme matricielle :

e(t, p+ 1) =

[1 −kp+1D

−kp+1D 1

]e(t, p)

67

Page 69: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

z−1

(t,p) ε +

ε − (t,p)

−k1

−k1 z−1

−kp

−kp

x(t)

Figure 5.1 – Filtre d’analyse en treillis. Ce filtre permet de construire leserreurs de prediction directe et retrograde a partir du processus et de la donneedes coefficients de correlation partielle.

Les erreurs initiales (p = 0) sont e(t, 0) = [Xt Xt]T . Ces equations debouchent sur une structure

de filtrage dite en treillis qui calcule, au moyen des coefficients de correlation partielle, les erreurs deprediction directe et retrograde a partir du processus Xt, t ∈ Z. Ce filtre d’analyse est representefigure 5.1. Les equations (5.26) peuvent encore s’ecrire :

ε+t,p = ε+t,p+1 + kp+1ε−(t−1)−p,p

ε−t−(p+1),p+1 = ε−(t−1)−p,pkp+1ε+t,p

qui donne le schema de filtrage de la figure 5.2.

x(t)

z−1 z−1 z−1

(t,p) ε +

(t,p) ε −

−kp

kp

−k1

k1

Figure 5.2 – Filtre de synthese en treillis. Ce filtre permet de reconstruire leprocessus a partir de la suite des erreurs de prediction directe et de la donneedes coefficients de correlation partielle.

5.4 Algorithme des innovations

L’algorithme des innovations est une application directe de la methode de gram-Schmidt et est,a cet egard, plus elementaire que l’algorithme de Levinson-Durbin. Il ne suppose de plus pas que leprocessus Xt, t ∈ Z est stationnaire. Supposons, sans perte de generalite que E Xt = 0 et notons

κ(i, j) = 〈Xi, Xj〉 = E XiXj ,

la fonction d’autocovariance de ce processus. Nous supposons dans ce paragraphe, que pour toutn ≥ 1, la matrice [κ(i, j)]ni,j=1 est non singuliere. Definissons, pour n ≥ 1, Hn = span (X1, . . . , Xn), et

σ2n = ‖Xn+1 − proj (Xn+1|Hn). Il est clair que, pour tout n ≥ 1,

Hn = span (X1, X2 − proj (X2|X1) , . . . , Xn − proj (Xn|Hn−1)) ,

68

Page 70: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ce qui implique que

proj (Xn+1|Hn) =n∑j=1

θn,j (Xn+1−j − proj (Xn+1−j |Hn−j)) . (5.33)

Nous allons maintenant montrer qu’il est possible de determiner de facon recursive les coefficientsθn,j , 1 ≤ j ≤ n. Remarquons en effet que les vecteurs Xi − proj (Xi|Hi−1) , i ≥ 1 forment unefamille orthogonale. En effet, pour i < j, Xi−proj (Xi|Hi−1) ∈ Hj−1 et Xj−proj (Xj |Hj−1) ⊥ Hj−1.Par consequent, pour 0 ≤ k < n,

〈proj (Xn+1|Hn) , Xk+1 − proj (Xk+1|Hk)〉 = θn,n−kσ2k+1 .

Since 〈Xn+1 − proj (Xn+1|Hn) , Xk+1 − proj (Xk+1|Hk)〉 = 0, les coefficients θn,n−k, k = 0, . . . , n− 1sont donnes par

θn,n−k = σ−2k+1〈Xn+1, Xk+1 − proj (Xk+1|Hk)〉 .

En utilisant la representation (5.33), nous avons donc

θn,n−k = σ−2k+1

κ(n+ 1, k + 1)−k−1∑j=0

θk,k−j〈Xn+1, Xj+1 − proj (Xj+1|Hj)〉

.

Comme 〈Xn+1, Xj+1 − proj (Xj+1|Hj)〉 = σ2j+1θn,n−j pour 0 ≤ j < n, nous avons donc pour k ∈

1, . . . , n,

θn,n−k = σ−2k+1

κ(n+ 1, k + 1)−k−1∑j=0

θk,k−jθn,n−jσ2j+1

. (5.34)

Le Theoreme de projection implique que

σ2n+1 = ‖Xn+1 − proj (Xn+1|Hn) ‖2 = ‖Xn+1‖2 − ‖ proj (Xn+1|Hn) ‖2

= κ(n+ 1, n+ 1)−n−1∑k=0

θ2n,n−kσ

2k+1 . (5.35)

Remarquons qu’alors que l’algorithme de Durbin Levinson permet de determiner les coefficients dudeveloppement de proj (Xn+1|Hn) sur X1, . . . , Xn, proj (Xn+1|Hn) =

∑nj=1 φn,jXn+1−j , l’algorithme

precedent calcule les coefficients du developpement de proj (Xn+1|Hn) sur la suite des innovations,X1, X2 − proj (X2|X1), . . . ,Xn − proj (Xn|Hn−1).

5.3 Exemple (Prediction d’un processus MA(1)):Considerons le processus Xt = Zt + θZt−1 ou Zt ∼ BB(0, σ2). Nous avons donc κ(i, j) = 0 pour|i− j| > 1, κ(i, i) = σ2(1 + θ2) et κ(i, i+ 1) = θσ2. Dans ce cas,

θn,j = 0 2 ≤ j ≤ n ,θn,1 = σ−2

n−1θσ2 , σ2

1 = (1 + θ2)σ2 ,

69

Page 71: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

etσ2n+1 = [1 + θ2 − σ−2

n θ2σ2]σ2 .

Si nous posons rn = σ2n/σ

2, nous avons

proj (Xn+1|Hn) = θ (Xn − proj (Xn|Hn−1)) /rn ,

avec r1 = 1 + θ2, et pour n ≥ 1, rn+1 = 1 + θ2 − θ2/rn.

5.5 Decomposition de Wold

Un des resultats fondamentaux de la theorie des processus stationnaires au second-ordre est ladecomposition de Wold. Cette decomposition permet de decomposer n’importe quel processus station-naire au second-ordre comme la somme d’un processus resultant du filtrage lineaire d’un bruit blancet d’un processus deterministe (definition 5.1.2). La preuve de ce resultat est de nature geometrique.L’idee de base est la suivante. Soit HXt = span (Xs, s ≤ t). HXt est appele le passe lineaire du proces-sus a la date t. Par construction, HXt ⊂ HXt+1, et nous disposons ainsi d’une famille de sous-espaceemboıtes de HX∞ = ∪t∈ZHXt . HX∞ est l’enveloppe lineaire du processus. L’espace

⋂t∈ZHXt , appele le

passe infini du processus Xt, t ∈ Z jouera aussi un role particulier. Par definition Xt appartienta HXt , mais il n’appartient generalement pas a HXt−1. Le theoreme de projection dit qu’il existe ununique element note proj

(Xt|HXt−1

)et appartenant a HXt−1 tel que :

εt = Xt − proj(Xt|HXt−1

)⊥ HXt−1

Dans ce contexte εt s’appelle l’innovation (lineaire) du processus. Il decoule de cette constructiongeometrique que le processus d’innovation est un processus orthogonal dans le sens ou :

∀s 6= t, εs ⊥ εt (5.36)

En effet, pour s < t, nous pouvons ecrire εs ∈ HXs ⊂ HXt−1 et εt ⊥ HXt−1. Et donc εs ⊥ εt.La proposition qui suit montre que le processus d’innovation est la limite des processus d’innova-

tions partielles a l’ordre p.

Proposition 5.5.1Pour tout Y ∈ L2(Ω,F ,P) et tout t ∈ Z nous avons :

limp→∞

proj(Y |HXt,p

)= proj

(Y |HXt

)ou HXt,p = span (Xt, Xt−1, · · · , Xt−p+1).

5.4 Exemple (Bruit blanc):Supposons que Xt soit un bruit blanc. Nous avons proj

(Xt|HXt−1,p

)= 0 pour tout p et donc

proj(Xt|HXt−1

)= 0. Nous avons donc εt = Xt − proj

(Xt|HXt−1

)= Xt : le processus Xt coıncide

avec son innovation. Ceci signifie qu’un bruit blanc ne peut etre predit de facon lineaire a partir de sonpasse.

70

Page 72: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

5.5 Exemple (Prediction d’un processus AR(p) causal):On considere le processus AR(p) causal defini par l’equation recurrente Xt = φ1Xt−1 + · · ·+φpXt−p +Ztou Zt ∼ BB(0, σ2). Dans le cas causal, on a HXt = HZt et, pour tout k ≥ 1, on avait E Xt−kZt = 0.Par consequent Zt ⊥ HXt−1 et HXt = HXt−1 ⊕ span (Zt). On en deduit que :

proj(Xt|HXt−1

)=

p∑k=1

φk proj(Xt−k|HXt−1

)+ proj

(Zt|HXt−1

)=

p∑k=1

φkXt−k

et donc Xt−proj(Xt|HXt−1

)= Xt−

∑pk=1 φkXt−k = Zt. Par consequent le bruit blanc Zt, qui intervient

dans l’equation recurrente d’un AR causal, est precisement l’innovation du processus AR. Ce resultat montreque

∑pk=1 φkXt−k est la projection de X(t) sur tout le passe Ht−1 et qu’elle coıncide avec la projection

orthogonale sur le passe Ht−1,p de duree p. Par consequent, pour tout m ≥ p, la suite des coefficients deprediction est φ1, . . . , φp, 0, . . . , 0︸ ︷︷ ︸

m−p

. Ce resultat est faux pour un AR non causal.

5.6 Exemple (Processus harmonique):Soit le processus harmonique Xt = A cos(λ0t+Φ) ou A est une variable aleatoire, centree, de variance σ2

A etΦ une variable aleatoire, independante de A et distribuee suivant une loi uniforme sur [−π, π]. Le processusXt est stationnaire au second-ordre, centre, de fonction d’autocovariance γ(τ) = (σ2

A/2) cos(λ0τ). Lescoefficients du predicteur lineaire optimal a l’ordre 2 sont donnes par :[

φ1,2

φ2,2

]=

[1 cos(λ0)

cos(λ0) 1

]−1 [cos(λ0)cos(2λ0)

]=

[2 cos(λ0)−1

]On verifie facilement que σ2

2 = ‖Xt − proj(Xt|HXt−1,2

)‖2 = 0. Par consequent, on a :

Xt = proj(Xt|HXt−1,2

)= 2 cos(λ0)Xt−1 −Xt−2 ∈ HXt−1

et donc la projection proj(Xt|HXt−1

)= Xt, ce qui implique que εt = 0. A l’inverse du bruit blanc, le

processus est entierement predictible a partir de son passe.

En appliquant la proposition 5.5.1 a Xt, nous pouvons ecrire :

limp→∞

proj(Xt|HXt−1,p

)= proj

(Xt|HXt−1

)et lim

p→∞ε+t,p = εt (5.37)

Le processus d’innovation εt est donc la limite en moyenne quadratique de la suite des innovationspartielles ε+t,p = Xt − proj

(Xt|HXt−1,p

). Une consequence immediate est que le processus d’innovation

est un processus stationnaire au second ordre. En utilisant, en effet, la continuite du produit scalaireet la stationnarite au second ordre de l’innovation partielle d’ordre p, on peut ecrire :

〈εt+τ , εt〉 = limp→∞〈ε+t+τ,p, ε

+t,p〉 = lim

p→∞〈ε+τ,p, ε+0,p〉 (5.38)

qui ne depend que de τ . En particulier nous avons :

σ2 = ‖εt‖2 = limp→∞

‖Xt − proj(Xt|HXt,p

)‖2 = lim

p→∞σ2p

71

Page 73: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Dans le cas du bruit blanc on obtient σ2 = EX2t

6= 0 et donc, d’apres la definition 5.1.2, le bruit

blanc est un processus regulier. D’un autre cote, le processus harmonique, pour lequel σ2 = 0, estdeterministe. Nous remarquons aussi que la somme d’un bruit blanc et d’un processus harmonique estun processus regulier.

La structure geometrique emboıtee des espaces HXt et l’orthogonalite des innovations fournissent,pour tout s < t, la formule suivante de decomposition en somme directe :

HXt = HXs ⊕ span (εs+1, · · · , εt) (5.39)

Notons, tout d’abord, que εt = Xt − proj(Xt|HXt−1

)∈ HXt et que εt ⊥ HXt−1, ce qui implique que

HXt−1 ⊕ span (εt) ⊆ HXt . D’un autre cote, puisque Xt = εt + proj(Xt|HXt−1

),

HXt = span(εt + proj

(Xt|HXt−1

), Xs, s ≤ t− 1

)= span (εt, Xs, s ≤ t− 1) ,

ce qui entraıne que HXt ⊆ HXt−1 ⊕ span (εt). En conclusion HXt = HXt−1 ⊕ span (Zt). En reiterant ceraisonnement, on en deduit la decomposition (5.39). Cette decomposition orthogonale de l’espace HXtn’est pas sans rappeler la decomposition de Gram-Schmidt. Notons qu’a l’inverse de la decompositionde Gram-Schmidt classique, nous procedons ici dans le sens retrograde. Definissons pour tout s ≥ 0 :

ψs =〈Xt, εt−s〉

σ2(5.40)

Remarquons que ψs ne depend pas de t. En effet, la continuite du produit scalaire et la stationnariteconjointe du processus Xt et de l’innovation partielle impliquent que :

〈Xt, εt−s〉 = limp→∞〈Xt, ε

+t−s,p〉 = lim

p→∞〈X0, ε

+−s,p〉

Lemme 5.5.2La suite ψs, s ∈ Z est de carre sommable et ψ0 = 1.

Demonstration Remarquons, tout d’abord, que la relation 〈proj(Xt|HXt−1

), εt〉 = 0 entraıne que :

ψ0 =〈Xt, εt〉σ2

=〈Xt − proj

(Xt|HXt−1

), εt〉

σ2

= 1 .

D’autre part, pour tout s ≥ 0, la projection orthogonale de Xt sur Hεt,s = span (εt, εt−1, · · · , εt−s+1)

s’ecrit, du fait de l’orthogonalite du processus d’innovation, proj(Xt|Hεt,s

)=∑s−1

k=0 ψkεt−k. On en

deduit que ‖proj(Xt|Hεt,s

)‖2 = σ2

∑s−1k=0 ψ

2k. On a alors d’apres l’egalite de Pythagore (proposition

2.2.2) :

‖ proj(Xt|Hεt,s

)‖2 = σ2

s−1∑k=0

ψ2k = ‖Xt‖2 − ‖Xt − proj

(Xt|Hεt,s

)‖2 ≤ ‖Xt‖2

ce qui conclut la preuve.

72

Page 74: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La suite (ψs)s≥0 etant de carre sommable, la suite s→ Xt,s =∑s

k=0 ψkεt−k est, pour t fixe, une suitede Cauchy dans L2(Ω,F ,P). Elle admet donc, quand s→∞, une limite que nous notons :

Ut =∞∑k=0

ψkεt−k

et qui est un processus stationnaire au second-ordre. On a, en effet :

E Ut = (Ut, 1) = lims→∞

s∑k=0

ψk(εt−k, 1) = 0

et

E Ut+τUt = (Ut+τ , Ut) = lims→∞

(s∑

k=0

ψkεt+τ−k,

s∑k=0

ψkεt−k

)= lim

s→∞

(s∑

k=0

ψkετ−k,

s∑k=0

ψkε−k

)

qui est independant de t.Le theoreme suivant, connu sous le nom de decomposition de Wold, est vraisemblablement le

resultat le plus important de la theorie des processus stationnaires au second-ordre.

Theoreme 5.5.3 (Decomposition de Wold)Soit Xt un processus stationnaire au second ordre et εt son processus d’innovation. On suppose que Xt

est un processus regulier (σ2 = ‖εt‖2 6= 0). On note Ut =∑∞

k=0 ψkεt−k ou ψk = 〈Xt, εt−k〉/σ2. Alorsil existe un processus Vt tel que :

Xt = Ut + Vt, (5.41)

et tel que :

(i) pour tout (t, s), 〈Vt, εs〉 = 0, qui implique que 〈Vt, Us〉 = 0,

(ii) Vt = proj(Xt|HX−∞

)est la projection orthogonale de Xt sur HX−∞ =

⋂∞t=−∞HXt ,

(iii) Ut est un processus regulier et εt = Ut−proj(Ut|HUt−1

)est l’innovation du processus Ut, t ∈ Z.

De plus, Hεt = HUt .

(iv) Vt est un processus deterministe et HVt = HX−∞.

Demonstration Elle est donnee en fin de chapitre.

Un processus Xt tel que HX−∞ = 0 est dit purement non deterministe. Pour un tel processus lapartie deterministe de la decomposition de Wold est identiquement nulle. Par exemple, le processusregulier Ut de la decomposition de Wold est purement non deterministe. En effet, en appliquant ladecomposition de Wold au processus Ut on a, pour tout t, Ut = Ut +Vt avec Vt = 0 et donc, d’apres lepoint iv, HU−∞ = 0. Le theoreme de Wold permet donc de decomposer tout processus stationnaire ausecond-ordre sous la forme d’une somme de deux processus orthogonaux, le premier etant purement nondeterministe et le second etant deterministe. La partie purement non-deterministe s’exprime comme lefiltrage d’un bruit blanc par un filtre lineaire invariant dans le temps de reponse impulsionnelle ψkcausale (ψk = 0 pour k < 0) et de carre sommable (pas necessairement de module sommable).

73

Page 75: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

5.7 Exemple (Processus MA(1)):Soit Zt un bruit blanc et soit le processus Xt = Zt + θ1Zt−1. Remarquons que, par construction,HXt ⊆ HZt mais que l’inclusion reciproque n’est pas necessairement verifiee. Montrons par contre que, pour|θ1| < 1, nous avons effectivement HXt = HZt . En effet, en reiterant p fois l’equation Xt = Zt + θ1Zt−1 eten resolvant par rapport a Zt, nous obtenons :

Zt = Xt − θ1Xt−1 + θ21Xt−2 + · · ·+ (−1)pθp1Xt−p − (−1)pθp+1

1 Zt−p

En prenant la limite en p, nous en deduisons que, si |θ1| < 1, alors :

Zt =

∞∑k=0

(−θ1)kXt−k

ce qui montre que HZt ⊂ HXt et donc que HXt = HZt . Dans ce cas, nous pouvons ecrire :

proj(Xt|HXt−1

)= proj

(Zt|HXt−1

)+ θ1 proj

(Zt−1|HXt−1

)= proj

(Zt|HZt−1

)+ θ1 proj

(Zt−1|HZt−1

)= 0 + θ1Zt−1 ,

en remarquant que proj(Zt|HZt−1

)= 0 car Zt, t ∈ Z est un bruit blanc. On en deduit que Xt −

proj(Xt|HXt−1

)= Xt − θ1Zt−1 = Zt. Par consequent, lorsque |θ1| < 1, le processus Zt, t ∈ Z est

l’innovation du processus Xt, t ∈ Z. Notons que le processus Xt, t ∈ Z est purement non deterministeet que les coefficients de la decomposition de Wold sont simplement donnes par ψ0 = 1, ψ1 = θ, et ψk = 0pour k > 1.

74

Page 76: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

5.6 Preuves des theoremes 5.1.3 et 5.5.3

Demonstration (Preuve du Theoreme 5.1.3) Nous allons tout d’abord montrer que lepredicteur optimal n’a pas de racines sur le cercle unite. Raisonnons par contradiction. Supposonsque le polynome φp(z) ait deux racines complexes conjuguees, de la forme exp(±iπθ), sur le cercleunite. (on traite de facon similaire le cas de racines reelles, θ = 0 ou π). Nous pouvons ecrire :

φp(z) = φ∗p(z)(1− 2 cos(θ)z + z2)

On note νX(dλ) = νX(dλ)|φ∗p(e−iλ)|2. νX est une mesure positive sur [−π, π] de masse finie. On noteγ(τ) la suite des coefficients de Fourier associes a νX :

γ(τ) =1

∫ π

−πeiτλνX(dλ)

Nous avons donc :

σ2p =

1

∫ π

−π(1− 2 cos(θ)e−iλ + e−2iλ)νX(dλ) = inf

ψ∈P2

1

∫ π

−π|1 + ψ1e−iλ + ψ2e−2iλ|2νX(dλ) .

Comme on l’a dit (page 62), la minimisation de σ2p par rapport a ψ1 et ψ2 est equivalent a la resolution

des equations de Yule-Walker a l’ordre p = 2 pour la suite des covariances γ(h). Par consequent lasuite des coefficients 1,−2 cos(θ), 1 doit verifier l’equation : γ(0) γ(1) γ(2)

γ(1) γ(0) γ(1)γ(2) γ(1) γ(0)

1−2 cos(θ)

1

=

σ2p

00

De cette equation il s’en suit (les premiere et troisieme lignes sont egales) que σ2

p = 0. Ce qui estcontraire a l’hypothese que le processus est regulier.

Demontrons maintenant que les racines des polynomes predicteurs sont toutes strictement al’exterieur du cercle unite. Raisonnons encore par l’absurde. Supposons que le polynome predicteura l’ordre p ait m racines ak, |ak| < 1, 1 ≤ k ≤ m a l’interieur du cercle unite et (p − m) racinesb`, |b`| > 1, 1 ≤ ` ≤ p −m a l’exterieur du cercle unite. Le polynome predicteur a l’ordre p s’ecritdonc :

φp(z) =m∏k=1

(1− a−1k z)

p−m∏`=1

(1− b−1` z)

Considerons alors le polynome :

φp(z) =

m∏k=1

(1− a∗kz)p−m∏`=1

(1− b−1` z)

Il a d’une part toutes ses racines strictement a l’exterieur du cercle unite et d’autre part il verifie|φp(e−iλ)|2 < |φp(e−iλ)|2. On a en effet |1−a∗ke−iλ| = |1−akeiλ| = |ak||1−a

−1k e−iλ| et donc |φp(e−iλ)|2 =

75

Page 77: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(∏mk=1 |ak|2

)|φp(e−iλ)|2, ce qui demontre le resultat annonce compte tenu du fait que |ak| < 1. On en

deduit alors que :

1

∫ π

−π|φp(e−iλ)|2νX(dλ) < σ2

p

ce qui contredit que φp(z) = infψ∈Pp(2π)−1∫ π−π |ψ(e−iλ)|2νX(dλ).

Demonstration (Preuve du Theoreme 5.5.3) (i). Par definition, Vt = Xt −∑∞

k=0 ψkεt−k ∈HXt . Pour s > t, εs ⊥ HXt , et donc 〈Vt, εs〉 = 0. Pour s ≤ t, 〈Vt, εs〉 = 〈Xt, εs〉 − ψt−sσ2 qui estegal a 0 par definition de ψk.

(ii). Montrons tout d’abord que Vt ∈ HX−∞. La preuve se fait par recurrence. Nous avons Vt ∈ HXtet Vt ⊥ εt (d’apres la propriete precedente). Comme HXt = HXt−1 ⊕ span (εt), on en deduitque Vt ∈ HXt−1. Supposons a present que Vt ∈ HXt−s, pour s ≥ 0. Comme Vt ⊥ εt−s et queHXt−s = HXt−s−1 ⊕ span (εt−s), nous avons Vt ∈ HXt−s−1. On a donc Vt ∈ HX−∞ =

⋂∞s=−∞HXs .

Il reste a montrer que Xt − Vt =∑∞

k=0 ψkεt−k est orthogonal a HX−∞. Pour cela consideronsY ∈ HX−∞. Nous avons :

〈Xt − Vt, Y 〉 = 〈∞∑k=0

ψkεt−k, Y 〉 = lims→+∞

s∑k=0

ψk〈εt−k, Y 〉

Mais, par definition, Y ∈ HX−∞ implique que, pour tout t, Y ∈ HXt . Comme εt−k ⊥ HXt−s−1 pour0 ≤ k ≤ s, nous avons

∑sk=0 ψk〈εt−k, Y 〉 = 0. Et donc, pour tout Y ∈ HX−∞, on a :

〈Xt − Vt, Y 〉 = 〈Ut, Y 〉 = 0 . (5.42)

(iii). Notons que (5.42) implique que, pour tout t, Ut ⊥ HX−∞ et donc HUt = span (Us, s ≤ t) ⊥ HX−∞.On peut alors poser Lt = HUt ⊕HX−∞. La decomposition Xt = Ut +Vt et la propriete precedente(Vt = proj

(Xt|HX−∞

)) impliquent que, pour tout t,HXt ⊂ Lt, et donc εt ∈ Lt. Comme, pour tout

t, εt ⊥ Ht−u pour tout u ≥ 0, εt ⊥ Y pour tout Y ∈ HX−∞, puisque, en particulier, Y ∈ Ht−u.Nous avons εt ⊥ HX−∞. Et donc εt ∈ HUt . Cela entraıne que

∑∞k=1 ψkεt−k ∈ HUt−1. Notons que∑∞

k=1 ψkεt−k = Ut − εt (ψ0 = 1). Par consequent, pour tout Y ∈ HUt−1 on a :

〈Ut −∞∑k=1

ψkεt−k, Y 〉 = 〈εt, Y 〉 = 0 .

Cela implique que∑∞

k=1 ψkεt−k est la projection orthogonale de Ut sur HUt−1 et donc que :

εt = Ut − proj(Ut|HUt−1

).

Cela signifie que εt, t ∈ Z est le processus d’innovation du processus Ut, t ∈ Z. Comme, parhypothese, σ2 = ‖εt‖2 6= 0, le processus Ut, t ∈ Z est donc regulier. Remarquons que, commeεt ∈ HUt , nous avons Hεt ⊂ HUt . Comme, par construction, HUt ⊂ Hεt , nous avons HUt = Hεt .

76

Page 78: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(iv). Montrons tout d’abord que, pour tout t, on a :

HVt = span (Vs, s ≤ t) = HX−∞ (5.43)

Pour tout t, Vt ∈ HX−∞ et donc HVt ⊆ HX−∞. D’un autre cote, puisque Xt =∑+∞

k=0 ψkεt−k + Vt,HXt = Hεt ⊕ HVt . Et donc, quel que soit Y ∈ HX−∞, alors Y ∈ HXs−1 pour tout s, de telle sorteque (Y, εs) = 0 et donc Y ∈ HVt , ce qui implique que HX−∞ ⊆ HVt . Ce qui demontre (5.43).Partant de (5.43), on deduit que proj

(Vt|HVt−1

)= proj

(Vt|HX−∞

)= proj

(Vt|HVt

)= Vt et que

‖Vt − proj(Vt|HVt−1

)‖2 = 0 : le processus Vt, t ∈ Z est donc deterministe.

77

Page 79: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Deuxieme partie

Estimation pour les processus lineaires

78

Page 80: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 6

Statistique Asymptotique

6.1 Notions de convergence

Dans la suite nous notons Xnn≥0 une suite de vecteurs aleatoires a valeurs dans (Rd,B(Rd)) etdefinies sur le meme espace de probabilite (Ω,F ,P). Nous notons, pour x, y ∈ Rd, d(x, y) = ‖x − y‖la distance euclidienne.

Nous donnons les trois notions de convergence pour une suite de v.a. Xnn≥0 dans l’ordre crois-sant, c’est-a-dire de la notion la plus faible a la plus forte (l’implication d’une convergence a une autreest etablie au theoreme 6.7).

Definition 6.1.1Nous dirons que la suite Xnn≥0 converge en loi vers X et nous noterons

XnL−→X ,

si pour toute fonction f : Rd → R continue bornee,

limn

E f(Xn) = E f(X) .

Il serait plus approprie de definir la convergence en loi uniquement a partir des lois :

Definition 6.1.2Nous dirons que la suite de probabilites µn definies sur (Rd,B(Rd)) converge etroitement vers laprobabilite µ definie sur (X,B(X)) et nous noterons

µn µ ,

si pour toute fonction f : Rd → R continue bornee,

limn→∞

µn(f) = µ(f) ,

ou pour une fonction f integrable et une mesure ν, ν(f) =∫f(x)ν(dx).

79

Page 81: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Il est donc clair que XnL−→X est equivalent a PXn PX , ou l’on a note PXn et PX les probabilites

images de Xn et X. On voit a cette occasion qu’il n’est pas necessaire de definir les v.a. Xnn≥0 etX sur le meme espace de probabilite pour definir la convergence en loi.

Il existe divers caracterisations de cette convergence tres utiles en pratique qui seront abordeesdans la section 6.7 (voir le Lemme 6.3.1 et le Theoreme 6.3.3).

Definition 6.1.3Nous dirons que la suite Xnn≥0 converge en probabilite vers X et nous noterons

XnP−→X ,

si pour tout ε > 0, nous avons :limn→∞

P (d(Xn, X) > ε) = 0 .

Au contraire de la convergence en loi, cette definition utilise que Xn et X sont definies sur le memeespace de probabilite ; autrement, on ne serait calculer la loi de d(Xn, X). Nous verrons les nombreusesrelations qui existent entre convergence en loi et convergence en probabilite dans la section 6.7. Notonscependant qu’il est un cas ou ces definitions coıncident. Si X est deterministe, i.e. s’il existe c ∈ Rd

tel que P(X = c) = 1, alors il est facile de voir que XnP−→X (on notera plutot Xn

P−→ c dans ce

cas tres particulier) est equivalent a XnL−→X (voir Theoreme 6.7-(ii)). Il n’y a pas de contradiction

avec la remarque precedente, les loi v.a. deterministes sont definies sans ambiguıte independammentde l’espace de probabilite sur lesquelles elles sont definies ; il s’en suit que pour X constante la loi ded(Xn, X) est connue uniquement a partir de la loi de Xn.

La proposition 6.5.1 peut bien entendu se formuler sous une forme plus generale, en choisissantf telle que E |f(Xn)| < ∞, et en l’applicant a la suite definie par Yn = f(Xn) pour n > 0. Uneformulation plus elegante (et plus precise) peut etre obtenue en introduisant la definition suivante.

Definition 6.1.4Nous dirons que la suite Xnn≥0 converge presque-surement vers X et nous noterons

XnP−p.s.−→ X ,

si :P(lim sup

nd(Xn, X) = 0) = 1.

Cette fois-ci, il est necessaire de definir Xnn≥0 et X sur le meme espace de probabilite sinon laloi de lim supn→∞ d(Xn, X) n’a pas de sens. Une methode essentiele permettant de prouver une telleconvergence est le Lemme de Borel-Cantelli :

Lemme 6.1.5 (Lemme de Borel-Cantelli)Soit An, n ∈ N une suite d’evenements tels que

∑n≥0 P(An) < ∞. Alors il existe une variable

aleatoire N a valeurs dans N telle que, P(An ⊆ n ≤ N) = 1. De plus,

P

∑n≥0

1I(An) <∞

= 1. (6.1)

80

Page 82: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Ce lemme est une application bien connue de la theorie des probabilite. Remar-

quons que(⋃

n≥mAn

)m

est une suite decroissante d’evenements dont l’intersection est precisement

l’evenement∑

n≥0 1I(An) =∞

. Or P(⋃

n≥mAn

)≤∑

n≥m P(An) qui tend vers zero quand m→∞par hypothese. D’ou (6.1). Observons alors qu’il s’en suit que pour tout ω dans un ensemble Ω? deprobabilite un, la plus grande valeur de n telle ω ∈ An est un entier fini. Notons N(ω) ce nombre etcompletons la definition de cette variable par zero en dehors Ω?. Le resultat est alors obtenu.

On en deduit facilement que s’il existe un suite de nombre positifs (εn) telle que lim εn = 0 et∑n∈N P|Xn| ≥ εn <∞, alors Xn

P−p.s.−→ 0.

6.2 Suites tendues

Introduisons la notion de tension pour une variable aleatoire.

Definition 6.2.1Une v.a. X a valeur dans un espace topologique quelconque est dite tendue si pour tout ε > 0, il existeun compact K tel que P(X /∈ K) ≤ ε. Une famille Xα, α ∈ A est dite uniformement tendue (oubornee en probabilite) si, pour tout ε > 0, il existe un compact K tel que supα∈A P(Xα /∈ K) ≤ ε.

Toute v.a. a valeurs dans Rd equipe de la topologie associe a la distance euclidienne est tenduepuisque

⋂n≥1‖x‖ ≥ n = ∅. De facon generale toute famille finie de variables aleatoires reelles est

tendue. Il s’en suit qu’une suite (Xn)n∈N de v.a. a valeurs dans Rd est bornee en probabilite si, pourtout ε > 0, il existe M > 0 tel que

lim supn→∞

P(‖Xn‖ > M) ≤ ε .

Un critere simple de tension uniforme pour une famille Xα, α ∈ A de v.a. a valeurs dans Rd estobtenu comme suit. Si, pour p > 0, nous avons supα E |Xα|p < ∞, l’inegalite de Markov montreque :

P(‖Xα‖ ≥M) ≤M−1E ‖Xα‖p ,

et donc que Xα est uniformement tendue. Plus generalement la notion de tension est intimementliee a la notion de convergence en loi. Le resultat suivant montre en effet que toute suite convergeanten loi est tendue et qu’il existe une reciproque (partielle) a ce resultat.

Theoreme 6.2.2 (Prohorov dans Rd)Soit Xn une suite de v.a. de Rd.

(i) Si XnL−→X, alors la famille Xn, n ∈ N est uniformement tendue,

(ii) Si la famille Xn, n ∈ N est uniformement tendue, alors il existe une sous suite telle que

XnjL−→X pour une v.a X.

Demonstration (i) : Si XnL−→X, on, pour tout M , lim supn P(‖Xn‖ ≥ M) ≤

lim supn E φM (‖Xn‖) = E φM (‖X‖) ≤ P(‖X‖ ≥M − 1), ou φM est une fonction continue bornee

81

Page 83: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

sur R telle que 1[M,∞) ≤ φM ≤ 1[M−1,∞). Donc pour tout ε > 0, on peut trouver M > 0 et N ∈ Ntels que P(‖Xn‖ ≥ M) ≤ ε pour tout n ≥ N . En augmentant M suffisamment, on obtient queP(‖Xn‖ ≥M) ≤ ε pour tout n ∈ 0, . . . , N.

(ii) : Soit gkk∈N une suite de fonction mesurables bornees de Rd dans R. Pour tout k la suiteE gk(Xn)n≥0 est bornee par sup |gk| et on peut donc extraire une sous-suite convergente de chacunede ses sous-suites. En procedant iterativement on construit une suite de sous-suites nk,l telle quenk+1,l ⊂ nk,l et E

gk(Xnk,l)

l≥0 converge pour tout k. On definit alors recursivement une suite

d’entiers n``≥0 par

n0 = 1 et, pour tout ` ∈ N, n`+1 = infn`+1,l > n` : l ∈ N.

Par construction, la suite n``≥0 est croissante et, pour tout k, a partir d’un certain rang, c’est unesous-suite de la suite nk,ll. On a donc trouve pour toute suite gkk∈N de fonctions mesurablesbornees de Rd dans R un sous-suite njj≥0 telle que (E

gk(Xnj )

)j≥0 converge pour tout k. Choisis-

sons pour cette suite une suite dense dans C0(Rd) l’ensemble des fonctions continues a support compactmuni de la norme uniforme (voir le lemme 6.2.3 ci-dessous). Il s’en suit que pour tout f ∈ C0(Rd),Ef(Xnj )

j≥0 converge. Notons u(f) sa limite. Il vient par passage a la limite que f 7→ u(f) est

une fonctionnelle lineaire continue de C0(Rd) muni de la norme uniforme dans R. Elle est de pluspositive (u(f) ≥ 0 si f est une fonction positive). Une telle forme lineaire est une mesure de Radonet l’on sait par le celebre theoreme de representation de Riesz qu’il existe une mesure positive µ finiesur tout compact de Rd telle que u(f) = µf (voir theoreme ??)).

Remarquons a ce stade que nous n’avons toujours pas utiliser d’hypotheses sur la suite Xn.La tension uniforme de cette suite va en fait nous permettre de montrer que, d’une part, µ est unemesure de probabilite et d’autre part que (E f(Xnl)l converge aussi vers µf si f est continue maispas necessairement a support compact, ce qui conclura la preuve de ce theoreme.

Supposons donc que Xn, n ∈ N est uniformement tendue. Soit (φm)m≥1 une suite de fonctioncontinue a valeur dans [0, 1], a support dans [−m−1,m+1]d et qui vaut 1 sur [−m,m]d. Alors, d’apresce qui precede, limE φm(Xnl) = µφm ≤ 1. D’apres l’hypothese de tension uniforme, pour tout ε onpeut donc trouver m tel que µφm ≥ 1− ε. Par convergence monotone, on obtient µ(Rd) = 1 et donc µest une mesure de probabilite. Soit X une v.a. de loi µ. Pour toute fonction f continue bornee de Rdet tout entier m > 0, on peut ecrire, pour toute variable Y ,

E f(Y ) = E (f(1− φm))(Y )+ E (fφm)(Y ) .

Il suit de la definition de φm que |E (f(1− φm))(Y ) | ≤ sup(|f |)P(|Y | ≥ m). En appliquant cettedecomposition a Y = Xnl et Y = X et en utilisant que X est tendu et que Xn, n ∈ N est uni-formement tendue, il vient, pour tout ε et m suffisamment grand,

|E f(Xnl) − E f(X) | ≤ 2 sup(|f |)ε+ |E (fφm)(Xnl) − E (fφm)(X) | .

La demonstration est achevee en remarquant que pour tout m, fφm est a support compact donc queliml→∞ E (fφm)(Xnl) = E (fφm)(X) puis en prenant ε arbitrairement petit.

Lemme 6.2.3Pour tout compact K de Rd, l’ensemble C(K) des fonctions continues sur K muni de la norme supest separable, c’est-a-dire qu’elle contient une suite denombrable dense.

82

Page 84: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Nous donnons une preuve elementaire dans le cas d = 1. Pour un resultat beaucoupplus general, voir par exemple le corollaire 2.13.38 de Schwartz [1991]. Considerons, pour tout entierj l’ensemble Ej des fonctions continues dont toutes les restrictions aux intervalles [k2−j , (k + 1)2−j ]d

avec k ∈ Z sont lineaires et telles que les valeurs prises en les nombres k2−j sont rationnels. Toutefonction continue sur un compact est uniformement continue sur ce compact. Pour l’approcher au sensde la norme sup sur K il suffit donc de l’approcher par une fonction de Ej sur la grille k2−j , k ∈Z ∩K en choisissant j suffisamment grand. L’ensemble Ej(K) des fonctions de Ej restreintes a Kest denombrable et l’on trouve que

⋃j Ej est dense dans C(K) pour tout compact K. En notant E0

j

le sous-ensemble de Ej de ses fonctions a support compact, on trouve de meme que⋃j E

0j est dense

dans C0(Rd).

Corollaire 6.2.4Soit Xn une suite de v.a. de Rd uniformement tendue et X une v.a. de Rd verifiant : pour toute

suite croissante divergente d’entiers (kn), si XknL−→ Y , alors Y ∼ X. Alors Xn

L−→X.

Demonstration D’apres le theoreme de Prohorov, de toute sous-suite de Xn, on peut extraire une

sous-suite qui converge en loi vers X. Un raisonnement par contradiction montre que XnL−→X :

en effet, si tel n’etait pas le cas, il existerait une fonction continue bornee f : Rd → R telle queE f(Xn) ne converge pas vers E f(X). On aurait donc une sous-suite Xnj et ε > 0 tels que|Ef(Xnj )

− E f(X) | > ε pour tout n ∈ N. Par suite, aucune sous-suite de Xnj ) ne convergerait

vers X, d’ou la contradiction.

6.3 Caracterisations de la convergence en loi

Le lemme de Portmanteau donne des conditions equivalentes a la convergence en loi.

Lemme 6.3.1 (Portmanteau)Soit Xnn≥0 et X une suite de vecteurs aleatoires a valeurs dans Rd et soit Pn et P leurs loirespectives. Les assertions suivantes sont equivalentes.

(i) XnL−→X,

(ii) Pour toute fonction f bornee et lipschitzienne (|f(x)− f(y)| ≤ Kf‖x− y‖ pour tout x, y ∈ Rd),limn→∞ E f(Xn) = E f(X),

(iii) lim inf Pn(G) ≥ P(G) pour tout ensemble ouvert,

(iv) lim sup Pn(F ) ≤ P(F ) pour tout ensemble ferme,

(v) Pour tout ensemble borelien A tel que P(A) = P(A) = P(intA),

limn→∞

Pn(A) = P(A)

ou A est la fermeture de A (A complete par l’ensemble des valeurs d’adherence des suitesd’elements de A).

Demonstration On montre une succession d’implications qui demontre l’equivalence des proposi-tions :

83

Page 85: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

1. (i)⇒(ii) est trivial puisque toute fonction lipschitzienne est continue.

2. (ii)⇒(iii) : soit G un ouvert. Pour tout m, definissons fm(x) = max(1,m d(x,Gc)). La suitefm est une suite croissante de fonctions positives bornees lipschitziennes fm qui convergencesimplement vers 1IG. Par construction, lim inf E 1IG(Xn) ≥ lim inf E fm(Xn) = E fm(X)par (ii). Le theoreme de Beppo-Levi montre d’autre part E fm(X) converge vers en croissantvers E 1IG(x), ce qui etablit le resultat.

3. (iii) ⇔ (iv) est evident en prenant les complementaires

4. (iii)⇔(iv)⇒(v) : pour tout A ∈ B(Rd) verifiant P(A) = P(A) = P(intA), nous avons

P(A) = P(intA) ≤ lim inf Pn(intA) ≤ lim inf Pn(A) ≤lim sup Pn(A) ≤ lim sup Pn(A) ≤ P(A) = P(A).

D’ou (v) en coincant lim inf Pn(A) et lim sup Pn(A) entre les deux memes bornes.

5. (v)⇒(i) : Soit AM = [−M,M ]d. Alors φ : M 7→ P(AM ) est une fonction croissante R+ →[0, 1], continue a droite, qui a un nombre fini de discontinuites plus grande qu’un ε > 0 donne.L’ensemble de ses discontinuites de φ sur R+ est donc au plus denombrable. Soit (Mn) unesuite croissante divergente de points de continuite de φ : pour tout ε > 0 il existe n tel queφ(M) = P([−M,M ]d) > 1−ε. Comme, en tout point de continuite M de φ, P(AM ) = P(AM ) =P(intAM ), en utilisant (v), on obtient que lim sup Pn(AMn) > 1 − ε, puis par suite que (Pn)est une suite uniformement tendue. Utilisons le corollaire 6.2.4. Soit (kn) une suite croissante

divergente d’entiers telle que XknL−→ Y . Alors Pour tout A ∈ B(Rd) verifiant P(A) = P(A) =

P(intA), on a P(Y ∈ A) = P(A). On definit maintenant, pour x = (x1, . . . , xd), le borelienBx = (−∞, x1]× · · · × (−∞, xd]. En raisonnant comme pour les AM , on montre aisement qu’ilexiste un ensemble C ⊆ Rd dense dans Rd tel que, pour tout x ∈ C, P(Bx) = P(intBx). CommeC est dense, on a σ(Bx, x ∈ C) = B(Rd). On note

C′ = x : P(Bx) = P(intBx) .

Comme C′ contient C, on a σ(Bx, x ∈ C′) = B(Rd). Comme Bx ∩By a sa frontiere incluse dansl’union des des frontieres de Bx et By, on voit que Bx, x ∈ C′ est un pi–systeme (i.e. est stablepar intersection finie). Le theoreme ?? permet donc de conclure que, la loi de Y coıncidant avecP sur ce π–systeme, elle coıncide avec sur tous les boreliens.

La proposition (v) implique que limn Fn(x) = F (x) en tout point de continuite de F , ou l’on anote Fn(x) = P(Xn ≤ x) et F (x) = P(X ≤ x) les fonctions de repartition de Xn et X. D’apres lapreuve de (v)⇒(i), on voit que la reciproque est en fait vraie : si limn Fn(x) = F (x) en tout point

de continuite de F , alors XnL−→X. Une consequence immediate est que, si la fonction de repartition

de X est continue, alors XnL−→X est equivalent a P(Xn ≤ x) → P(X ≤ x) pour tout x ∈ Rd. Pour

d = 1, la convergence est en fait uniforme en x comme l’indique le resultat suivant.

Lemme 6.3.2Supposons, pour d = 1, que Xn

L−→X et que la fonction de repartition de X est continue. Alors,

limn→∞

supx∈R|P(Xn ≤ x)− P(X ≤ x)| = 0.

84

Page 86: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Soit Fn(x) = P(Xn ≤ x) et F (x) = P(X ≤ x). F etant continue, il existe des points−∞d = x0 < x1 < . . . < xk = ∞d tels que F (xi) = i/k. Fn et F etant croissantes, nous avons, pourtout x ∈ Rd, en choisissant i tel que xi−1 ≤ x ≤ xi :

Fn(x)− F (x) ≤ Fn(xi)− F (xi−1) = Fn(xi)− F (xi) + 1/k

Fn(x)− F (x) ≥ Fn(xi−1)− F (xi) = Fn(xi−1)− F (xi−1)− 1/k.

Donc |Fn(x)− F (x)| est borne par supi |Fn(xi)− F (xi)|+ 1/k pour tout x. Par consequent,

limn→∞

supx∈R|Fn(x)− F (x)| ≤ lim

n→∞sup

i∈0,...,k|Fn(xi)− F (xi)|+ 1/k = 1/k,

ce qui permet de conclure, en choisissant k arbitrairement grand.

Le raisonnement s’etend sans difficulte au cas multidimensionnel mais nous omettons cet enonce,la fonction de repartition etant mieux adaptee a la dimension un.

Comme nous l’avons deja vu dans le lemme de Portmanteau, pour demontrer la convergence en loi,il suffit de s’interesser a un sous-ensemble des fonctions continues bornees, par exemple, les fonctionslipschitziennes bornees, mais cette classe peut encore etre reduite. Nous allons en fait demontrer danscette partie qu’il suffit de s’interesser a une seule fonction, la fonction caracteristique,

t→ E

eitTX, t ∈ Rd.

Pour tout t, la fonction x→ eitTX est continue et bornee. Par consequent, si XnL−→X, E

eitTXn

E

eitTXn

. Le theoreme de continuite de Levy montre que la reciproque est vraie.

Theoreme 6.3.3 (Levy)Soit Xn et X des v.a. a valeurs dans Rd. Alors Xn

L−→X si et seulement si E

eitTXn→ E

eitTX

.

De plus si, pour tout t, E

eitTXn

converge vers une fonction φ(t) qui est continue en 0, alors φ(t)

est la fonction caracteristique d’une v.a. X et XnL−→X.

Demonstration L’implication directe est evidente. Considerons la reciproque. Supposons toutd’abord que la famille Xn est bornee en probabilite et utilisons le corollaire 6.2.4. Soit (kn) une

suite croissante divergente d’entiers telle que XknL−→ Y . La fonction caracteristique de E

eitTY

est

alors la limite de E

eitTXkj

et donc, pour tout t, E

eitTY

= E

eitTX

(ou φ(t) dans le cas ou l’on

n’a pas suppose l’existence de X). La proposition ?? montre X et Y ont la meme loi.

Il suffit maintenant de demontrer que l’hypothese E

eitTXn→ E

eitTX

implique que Xn, n ∈

N est bornee en probabilite. Pour tout x et tout δ > 0 nous avons :

1(|x| ≥ 2/δ) ≤ 2

(1− sin(δx)

δx

)=

1

δ

∫ δ

−δ(1− cos(tx))dt .

En remplacant x par Xn, en en utilisant le theoreme de Fubini :

P(|Xn| ≥ 2/δ) ≤ 1

δ

∫ δ

−δRe(

1− E

eitTXn)

dt .

85

Page 87: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Par hypothese, l’integrande converge pour tout t vers Re(

1− E

eitTX)

, quand n→∞. Le theoreme

de convergence domine implique donc :

lim supP(|Xn| ≥ 2/δ) ≤ 1

δ

∫ δ

−δRe(1− φ(t))dt .

Comme la fonction φ est continue en zero, pour tout ε > 0, il existe δ tel que, pour tout |t| ≤ δ,|φ(t)| ≤ ε. Par suite,

lim supP(|Xn| ≥ 2/δ) ≤ 2ε,

et donc la famille Xn, n ∈ N est bornee en probabilite.

La fonction caracteristique d’un vecteur aleatoire X = (X1, . . . , Xk) en t ∈ Rd peut etre vue

comme la fonction caracteristique de la v.a. Y = tTX evaluee au point 1, ψ(t) = E

eitTX

= φ(1) ou

φ : u ∈ R→ E

eiuY

. Supposons que XnL−→X. Alors, pour tout t ∈ Rd et tout u ∈ R, E

eiutTXn

E

eiu(tTX)

, et donc tTXnL−→ tTX par application du theoreme de Levy 6.3.3. Reciproquement,

supposons que pour tout t ∈ Rd, tTXnL−→ tTX. Alors E

ei(tTXn)

→ E

ei(tTX)

et donc Xn

L−→X,

encore par application du theoreme de Levy. Par consequent :

Proposition 6.3.4 (Procede de Cramer-Wold)Soit (Xn, n ∈ N) une suite de vecteurs aleatoires a valeurs dans Rd. Alors :

XnL−→X ⇔ tTXn

L−→ tTX, ∀t ∈ Rd.

Cette approche est tres utilisee pour prouver la convergence en loi de vecteurs. Elle est connue sousle nom de procede de Cramer–Wold. Elle permet de reduire les problemes de convergence de vecteursaleatoires a des problemes de convergence de variables aleatoires.

6.4 Theoreme de continuite

Une propriete fondamentale des notions de convergence que l’on a introduite est qu’elles sontconservees par une transformation continue : si la suite de v.a. Xn converge vers X et que g estcontinue, alors g(Xn) converge vers g(X) et le resultat est vrai pour les trois types de convergenceconsideres.

Theoreme 6.4.1 (Transformation continue)Soit g : Rd 7→ Rm est continue en tout point d’un ensemble C tel que P(X ∈ C) = 1. Alors,

(i) Si XnL−→X, alors g(Xn)

L−→ g(X),

(ii) Si XnP−→X, alors g(Xn)

P−→ g(X),

(iii) Si XnP−p.s.−→ X, alors g(Xn)

P−p.s.−→ g(X).

86

Page 88: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration (i) : Par definition, g(Xn) ∈ F = Xn ∈ g−1(F ). Pour tout ferme F , on a :

g−1(F ) ⊂ g−1(F ) ⊂ (g−1(F ) ∪ Cc).

En effet, seule la seconde inclusion est non-triviale ; soit x ∈ g−1(F ) et montrons qu’ou bien x ∈ Cc(le complementaire de C) ou bien x ∈ g−1(F ). Il existe une suite xm d’elements de g−1(F ) telle quexm → x. Si x ∈ C, g(xm) → g(x), car g est continue au point x, et comme g(xm) ∈ F et F estferme, g(x) ∈ F , ce qui implique que x ∈ g−1(F ). On deduit de cette serie d’inclusions et du lemme

de Portmanteau, comme XnL−→X et P(X ∈ Cc) = 0,

lim supP(g(Xn) ∈ F ) ≤ lim supP(Xn ∈ g−1(F )) ≤ P(X ∈ g−1(F ))

≤ P(X ∈ g−1(F ) ∪ Cc) = P(X ∈ g−1(F )) = P(g(X) ∈ F ),

et, donc, en appliquant de nouveau le lemme de Portemanteau, g(Xn)L−→ g(X).

(ii) : Soit ε > 0. Pour tout δ > 0, soit Bδ l’ensemble des points x tels qu’il existe y tel que‖x − y‖ ≤ δ mais ‖g(x) − g(y)‖ ≥ ε. Si X 6∈ Bδ et ‖g(Xn) − g(X)‖ ≥ ε, alors ‖Xn − X‖ ≥ δ. Nousavons donc :

P(‖g(Xn)− g(X)‖ ≥ ε) ≤ P(X ∈ Bδ) + P(‖Xn −X‖ ≥ δ).

Le second terme du membre de droite tend vers 0 car XnP−→X. Nous avons P(X ∈ Bδ ∩ Cc) = 0 et

limδ0 P(X ∈ Bδ ∩ C) = 0 par continuite de g.(iii) : dans ce cas, une simple application de la definition donne le resultat.

6.5 Loi des grands nombres

Proposition 6.5.1 (Loi faible des grands nombres)Soit Xnn>0 une suite de v.a. i.i.d. telle que E‖Xn‖ <∞ et E[Xn] = µ. Alors

Xn = n−1n∑i=1

XiP−→ µ .

Demonstration (Proposition 6.5.1) Notons ψn(t) la fonction caracteristique de Xn et φ(t) lafonction caracteristique de Zk. Les variables etant i.i.d., :

ψn(t) = E

exp(itn−1

n∑k=1

Zk)

=

n∏k=1

E

exp(itn−1Zk)

= φ(n−1t)n.

Comme E |Z| <∞ existe, φ est derivable en 0 et

φ(n−1t)n =

(1 +

it

nE Z+ o(n−1)

)n→ eitµ.

Le membre de droite est la fonction caracteristique de la constante µ. Le theoreme de Levy 6.3.3

montre que ZnL−→ µ et donc Zn

P−→ µ.

87

Page 89: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Theoreme 6.5.2 (Loi forte des grands nombres)Soit Xnn>0 une suite de v.a. i.i.d. telle que E‖Xn‖ <∞ et E[Xn] = µ. Alors

Zn = n−1n∑i=1

ZiP−p.s.−→ µ .

Comme son nom l’indique, la loi forte des grands nombres est un resultat plus puissant que la loifaible, puisque la convergence p.s. implique la convergence en probabilite, comme nous le verrons autheoreme 6.7.

6.6 Theoreme de la limite centrale

Le theoreme de limite centrale (T.L.C.) donne des conditions sous lesquelles des sommes norma-lisees de v.a. independantes de moyenne nulle converge en loi vers une gaussienne. Ce resultat joue unrole majeur en statistique (voir Le Cam, 1986, pour une histoire de ce theoreme).

Theoreme 6.6.1Soit Xn une suite de vecteurs aleatoires de Rd i.i.d. de moyenne µ et de matrice de covarianceΣ > 0. Alors :

1√n

n∑i=1

(Xi − µ)L−→ N(0,Σ),

ou l’on a note N(0,Σ) le vecteur gaussien centre de matrice de covariance Σ.

Demonstration Il suffit d’etablir le resultat pour des v.a. scalaires. Le procede de Cramer-Wold(voir section 6.3) nous permet d’etendre le resultat au cas vectoriel.

Posons : Yn = σ−1(Xn − µ). La variable aleatoire Yn est de moyenne nulle et de variance unite :E Yn = 0 et Var(Yn) = 1. Notons :

Yn = n−1n∑i=1

Yi.

Pour t ∈ R, notons φn(t) la fonction caracteristique associee a la variable aleatoire√nYn.

φn(t) = E

exp(it√nYn)

.

Nous allons demontrer que pour tout t :

limn→∞

φn(t) = exp(−t2/2)

et nous conclurons en utilisant le theoreme de Levy, en remarquant que exp(−t2/2) est la fonctioncaracteristique de la loi gaussienne de moyenne nulle et de variance unite.

Les variables aleatoires Yi1≤i≤n etant independantes, nous avons, pour tout t ∈ R :

φn(t) = ψ(n−1/2t)n ,

88

Page 90: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou ψ(t) = E exp(itY ). D’apres la proposition ??, comme E Y = 0 et EY 2

= 1, on a, quandn→∞,

ψ(n−1/2t) = 1− 1

2(n−1/2t)2 + o(n−1) ,

et par suite,limn→∞

φn(t) = exp(−(1/2)t2),

ce qui conclut la preuve du T.L.C. scalaire.

Il existe une autre methode de preuve du theoreme de la limite centrale (T.L.C.), due a Lindeberg(1922), qui permet de generaliser le T.L.C. a des variables aleatoires independantes mais qui ne sontpas necessairement identiquement distribuees. Ce resultat s’applique donc en toute generalite a destableaux triangulaires de v.a. independantes.

Theoreme 6.6.2 (Lindeberg–Feller)Soit (kn, n ≥ 0) une suite d’entiers croissante. Soit (Yn,1, . . . , Yn,kn) un tableau triangulaire de vec-teurs aleatoires independants centres tels que E

‖Yn,i‖2

< ∞ pour i ∈ 1, . . . , kn. Supposons les

conditions de Lindeberg–Feller verifiees :

limn→∞

kn∑i=1

E‖Yn,i‖21(‖Yn,i‖ > ε)

= 0, ∀ε > 0, (6.2)

limn→∞

kn∑i=1

CovYn,i = Σ. (6.3)

Alors, la suite∑kn

i=1 Yn,i converge vers une loi normale N(0,Σ).

Demonstration Par le procede de Cramer-Wold, il suffit de montrer ce resultat en dimension un. Ceresultat repose tout d’abord sur le fait que (6.3) permettrait de conclure directement si on supposait lesv.a. Yn,i gaussiennes (voir proposition 6.9.3). La methode de Lindeberg repose alors sur la comparaison

entre les sommes partielles∑kn

i=1 Yn,i et∑kn

i=1Xn,i ou (Xn,i)n∈N,1≤k≤kn est un tableau triangulaires dev.a. gaussiennes independantes, telles que,

– Pour tout n et pour tout i ∈ 1, . . . , kn, varYn,i = varXn,i,– Pour tout n et tout i, j ∈ 1, . . . , kn, les v.a. Xn,i et Yn,j sont independantes.

Nous allons tout d’abord que, sous ces deux conditions, il est possible de controler la difference entreles sommes partielles construites a partir du tableau triangulaire (Xn,i, i ∈ 1, . . . , kn) et (Yn,i, i ∈1, . . . , kn) de telle sorte que la convergence en loi de la somme partielle Sn =

∑kni=1Xn,i implique la

convergence en loi de la somme partielle Tn =∑kn

i=1 Yn,i.Considerons deux sommes Sn = Xn,1 +Xn,2 +· · ·+Xn,kn et Tn = Yn,1 + Yn,2 + . . .+ Yn,kn . Soit f

une fonction deux fois differentiable avec une derivee seconde bornee et Lipschitzienne, i.e.,

|f ′′|Lip = sup(x,y)∈R×R,x 6=y

|f ′′(x)− f ′′(y)||x− y|

<∞. (6.4)

89

Page 91: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou f ′′ est la derivee seconde de f . On a la decomposition

E f(Sn) − E f(Tn) =

kn∑k=1

[E f(Rn,k +Xn,k) − E f(Rn,k + Yn,k)],

ou Rn,k =(∑

j<kXn,j

)+(∑

j>k Yn,j

). Developpons f(Rn,k +Xn,k) au voisinage de Rn,k :

f(Rn,k +Xn,k) = f(Rn,k) +Xn,k f′(Rn,k) +

X2n,k

2f ′′(Rn,k) +

X2n,k

2[f ′′(Rn,k + θn,kXn,k)− f ′′(Rn,k)],

ou θn,k ∈ [0, 1]. Developpons de meme f(Rn,k + Yn,k). Notons que, la v.a. Rn,k est independante, parconstruction, des v.a. Xn,k et Yn,k. Par consequent, nous avons pour tout k ∈ 1, . . . , n,

Ef ′(Rn,k)(Xn,k − Yn,k)

= E

f ′(Rn,k)

(E Xn,k − E Yn,k) = 0,

en utilisant que E Xn,k = E Yn,k = 0. De la meme facon, comme par construction des v.a Xn,k et

Yn,k nous avons EX2n,k

= E

Y 2n,k

, nous avons

Ef ′′(Rn,k)(X

2n,k − Y 2

n,k)

= Ef ′′(Rn,k)

(EX2n,k

− E

Y 2n,k

)= 0,

Comme f ′′ est une fonction Lipshitzienne, pour tout ε > 0, nous avons, pour tout θ ∈ [0, 1],

|f ′′(Rn,k + θXn,k))− f ′′(Rn,k)| ≤ |f ′′|Lip|Xn,k|,|f ′′(Rn,k + θYn,k)− f ′′(Rn,k)| ≤ |f ′′|Lip|Yn,k|1I(|Yn,k| ≤ ε) + 2|f ′′|∞1I(|Yn,k| > ε) ,

ou |f ′′|∞ = supx∈R |f ′′(x)| (qui est fini par hypothese). Nous utilisons ici deux majorationsdifferentes pour des raisons qui deviendront transparentes dans la suite de la preuve. Par consequent,E f(Rn,k +Xn,k) − E f(Rn,k + Yn,k) est majore en valeur absolue par

1

2|f ′′|Lip (E

|Xn,k|3

+ E

|Yn,k 1(|Yn,k| ≤ ε)|3

+ |f ′′|∞ E

|Yn,k 1(|Yn,k| > ε)|2

,

pour tout ε > 0. Remarquons que

E|Xn,k|3

= σ3

n,kE|Xn,k/σk,n|3

= σ3

n,km3,

ou m3 est le moment d’ordre trois d’une loi gaussienne centree reduite et σn,kdef= E

X2n,k

= E

Y 2n,k

.

Remarquons aussi que

E|Yn,k 1(|Yn,k| ≤ ε)|3

≤ εE

|Yn,k|2

= εσ2

n,k .

Ces inegalites conduisent a la majoration :

|E f(Sn) − E f(Tn) | ≤ 1

2|f ′′|Lip

(m3

kn∑k=1

σ3n,k + ε

kn∑k=1

σ2n,k

)+ |f ′′|∞

kn∑k=1

E|Yn,k 1(|Yn,k| > ε)|2

.

90

Page 92: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

On a d’autre partkn∑k=1

σ3n,k ≤

kn∑k=1

σ2n,k max

k∈1,...,kn(σn,k).

Or (6.3) implique que pour tout 1 ≤ k ≤ kn, et tout ε > 0, nous avons

σ2n,k ≤ ε2 + E

|Yn,k 1(|Yn,k| > ε)|2

≤ ε2 +

kn∑j=1

E|Yn,j 1(|Yn,j | > ε)|2

.

et donclim supn→∞

maxk∈1,...,kn

σ2n,k = 0 .

D’ou, pour tout ε > 0,

|E f(Sn)−E f(Tn) | ≤ 1

2|f ′′|Lip

m3

kn∑k=1

σ2n,k

ε2 +

kn∑j=1

E|Yn,j 1(|Yn,j | > ε)|2

1/2

+ ε

kn∑k=1

σ2n,k

+ |f ′′|∞

kn∑k=1

E|Yn,k 1(|Yn,k| > ε)|2

. (6.5)

Par hypothese la serie∑

k E|Yn,k 1(|Yn,k| > ε)|2

tend vers zero et

∑k σ

2n,k tend vers une constante

σ2 respectivement quand n tend vers l’infini. D’ou, pour tout ε > 0,

limn→∞

|E f(Sn) − E f(Tn) | ≤ 1

2|f ′′|Lip(m3 + 1)σ2ε.

En faisant tendre, dans un deuxieme temps, ε vers zero, on obtient donc une limite nulle. Comme les(Xn,j , j ∈ 1, . . . , kn) sont des v.a. gaussiennes, la proposition 6.9.3 permet de conclure. Comme cesmajorations sont en particulier valables pour f(x) = exp(−itx), le theoreme 6.3.3 de Levy permets deconclure. La majoration (6.5) est plus precise que le resultat de convergence en loi car elles fournissentdes vitesses de convergences de E f(Sn) en fonction de normes appliquees au tableau Yn,k et denormes appliquees a f pour des f convenablement choisis.

6.7 Symboles o et O stochastiques

Le theoreme suivant clarifie les relations entre les differentes definitions de convergence et cellesentre convergence d’un vecteur et convergence de ses coordonnees.

Theoreme 6.7.1Soient Xn, X et Yn des v.a. Nous avons :

(i) XnP−p.s.−→ X implique Xn

P−→X,

(ii) XnP−→X implique Xn

L−→X,

(iii) XnP−→ c, ou c est une constante, si et seulement si Xn

L−→ c,

91

Page 93: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(iv) Si XnL−→X et Xn − Yn

P−→ 0, alors YnL−→X,

(v) Si XnL−→X et Yn

P−→ c pour une constante c, alors, (Xn, Yn)L−→ (X, c),

(vi) Si XnP−→X et Yn

P−→ Y alors (Xn, Yn)P−→ (X,Y ).

Demonstration (i) : SiXnP−p.s.−→ X, pour tout ε > 0, P (

⋂nAn) = 0 avec An =

⋃k≥n‖Xk−X‖ ≥ ε.

Par consequent :limn

P(‖Xn −X‖ ≥ ε) ≤ limn

P(An) = 0

(ii) : Soit f Lipschitzienne bornee, notons |f |∞ = supx |f(x)| et |f |Lip = supx6=y |f(x)−f(y)|/‖x−y‖. Pour tout ε > 0,

|E f(Xn) − E f(X) | ≤ ε|f |Lip + 2|f |∞P(‖Xn −X‖ ≥ ε).

Le second terme du membre de droite tend vers 0 et le premier peut etre rendu arbitrairement petit.Donc, limn E f(Xn) = E f(X).

(iii) : (ii) montre que si XnP−→ c, alors Xn

L−→ c. Pour la reciproque, soit ε > 0 et soit B(c, ε) = x :‖x−c‖ < ε la boule ouverte de centre c et de rayon ε. Nous avons P(‖Xn−c‖ ≥ ε) = P(Xn ∈ B(c, ε)c).

Si XnL−→ c, le lemme de Portmanteau montre que lim supP(Xn ∈ B(c, ε)c) ≤ P(c ∈ B(c, ε)c) = 0

(iv) : Soit f Lipschitzienne bornee, et ε > 0,

|E f(Xn) − E f(Yn) | ≤ |f |Lipε+ |f |∞P(‖Xn − Yn‖ ≥ ε).

Le second terme tend vers 0 et le premier peut etre rendu arbitrairement petit, donc E f(Xn) etE f(Yn) ont la meme limite.

(v) : Remarquons, en notant d(x, y) la distance euclidienne, que d((Xn, Yn), (Xn, c)) = d(Yn, c)→0. Donc, en utilisant (iv), il suffit de prouver que (Xn, c)

L−→ (X, c). Pour toute fonction continuebornee f : (x, y) → f(x, y) la fonction f(., c) : x → f(x, c) est continue et bornee et |E f(Xn, c) −E f(X, c) | → 0, car Xn

L−→X.(vi) : consequence directe de d((x1, y1), (x2, y2)) ≤ d(x1, y1) + d(x2, y2).

Le theoreme 6.7 a quelques applications immediates et utiles en pratique.La propriete (vi) montre que la convergence en probabilite d’une suite de vecteurs aleatoires Xn =

(Xn,1, . . . , Xn,k) est equivalente a la convergence de chacune de ses composantes individuellement. Leresultat analogue pour la convergence en distribution est faux : la convergence en distribution d’unesuite de vecteurs aleatoires est une propriete plus forte que la convergence en distribution de chacunede ses composantes Xn,i.

La propriete (v) du theoreme implique que si XnL−→X et Yn

P−→ c, alors (Xn, Yn)L−→ (X, c). Le

theoreme de continuite (theoreme 6.4.1) montre donc que pour toute fonction g : (x, y) → g(x, y)

continue sur un ensemble C×c, P(X ∈ C) = 1, g(Xn, Yn)L−→ g(X, c). Des applications particulieres

de ce principe sont souvent regroupees sous la forme du lemme suivant, connue sous le nom de lemmede Slutsky.

Lemme 6.7.2 (Lemme de Slutsky)Soit Xn, X et Yn des v.a. reelles. Si Xn

L−→X et YnL−→ c ou c est une constante, alors

92

Page 94: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(i) Xn + YnL−→X + c ;

(ii) YnXnL−→ cX ;

(iii) Y −1n Xn

L−→ c−1X pour c 6= 0.

Le procede de Cramer-Wold (voir section 6.3) permet d’etendre ce resultat au cas vecto-riel/matricel, pour peu que, dans (i), c soit un vecteur de meme dimension que X, et dans (ii)et (iii), Ynn et c soient des matrices (avec c inversible pour (iii)) de meme dimension adaptee a celledes vecteurs Xn.

Il est pratique de disposer de notations simples pour exprimer qu’une suite tend vers 0 en probabiliteou est bornee en probabilite. Nous dirons qu’une suite de v.a. (scalaire ou vecteur) Xn = oP (1) si

XnP−→ 0 ; nous noterons Xn = OP (1) si Xn est bornee en probabilite. Plus generalement, pour Rn

une suite de v.a.,

Xn = oP (Rn) signifie Xn = YnRn avec Yn = oP (1), (6.6)

Xn = OP (Rn) signifie Xn = YnRn avec Yn = OP (1), (6.7)

(6.8)

Pour Xn et Rn des suites deterministes, les symboles oP et OP coıncident avec les symboles o et Ode l’analyse. Les symboles oP et OP se manipulent d’ailleurs exactement de la meme facon que lessymboles o et O. Par exemple,

oP (1) + oP (1) = oP (1),

oP (1) +OP (1) = OP (1),

OP (1)oP (1) = oP (1),

(1 + oP (1))−1 = OP (1),

oP (Rn) = RnoP (1), OP (Rn) = RnOP (1)

Pour s’assurer de la validite de ces regles, il suffit de les re-ecrire explicitement avec des suites et

d’utiliser les resultats classiques enonces ci-dessus. Par exemple, si XnP−→ 0 et Yn

P−→ 0, le theoreme

6.7 (vi) implique que (Xn, Yn)P−→ (0, 0) qui equivaut a (Xn, Yn)

L−→ (0, 0). Le theoreme de continuite

(applique a f : (x, y) 7→ x + y) implique Xn + YnL−→ 0, qui equivaut a Xn + Yn

P−→ 0 (theoreme 6.7

(iii)). La troisieme regle est une facon concise d’ecrire : si Xn est borne en probabilite et YnP−→ 0, alors

XnYnP−→ 0. Si Xn

L−→X, alors ce resultat decoule du lemme de Slutsky (car XnL−→X et Yn

P−→ c

implique que YnXnL−→ cX, donc si c = 0, YnXn

L−→ 0 qui equivaut a YnXnP−→ 0). Dans le cas ou

Xn ne converge pas en probabilite, on peut soit donner une preuve directe, soit utilise le theoreme deProhorov.

La regle de calcul suivante est utile pour les developpements asymptotiques.

Lemme 6.7.3Soit R une fonction D ⊂ Rk telle que R(0) = 0. Soit Xn une suite de v.a. a valeurs dans D tels queXn → 0. Alors, pour tout p > 0,

(i) Si R(h) = o(‖h‖p) quand h→ 0, alors R(Xn) = oP (‖Xn‖p),

93

Page 95: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(ii) Si R(h) = O(‖h‖p) quand h→ 0, alors R(Xn) = OP (‖Xn‖p).

Demonstration Definissons g(h) = R(h)/‖h‖p pour h 6= 0 et g(0) = 0 : R(Xn) = g(Xn)‖Xn‖p.(i) La fonction g est continue en 0 et le theoreme de continuite montre que g(Xn)

P−→ g(0) = 0. Ladeuxieme assertion se demontre de facon similaire.

6.8 Delta–methode

Supposons que nous disposions d’un estimateur Tn d’un parametre ν, mais que la quantite d’interetsoit g(ν). Un estimateur naturel de cette quantite est g(Tn). Pouvons nous deduire le comportementasymptotique de g(Tn) a partir de celui de Tn ?

Nous savons deja que si Tn converge en probabilite vers ν et que g est continue au point ν, alorsg(Tn) converge en probabilite vers g(ν).

Si nous savons√n(Tn−ν) converge en loi vers une distribution limite, pouvons nous affirmer qu’il

en est de meme pour√n(g(Tn) − g(ν)) ? La reponse est affirmative si la fonction g est differentiable

au point ν : de facon heuristique, nous avons :

√n(g(Tn)− g(ν)) ' g′(ν)

√n(Tn − ν),

et donc, si√n(Tn − ν) →d T , alors

√n(g(Tn) − g(ν) →d [g′(ν)]T . En particulier, si

√n(Tn − ν) est

asymptotiquement N(0, σ2) alors√n(g(Tn)− g(ν) est asymptotiquement normal N(0, [g′(ν)]2σ2).

La meme question se pose lorsque Tn = (Tn,1, . . . , Tn,k) est un vecteur aleatoire et g est unefonction de Rk 7→ Rm. Nous connaissons la loi de

√n(Tn − ν) et nous nous interessons a la loi de√

n(g(Tn)−g(ν)). Le resultat ci-dessus s’etend directement en remplacant la derivee par la differentielle∇νg(ν).

Proposition 6.8.1Soit g : Dg ⊂ Rk 7→ Rm une fonction definie sur un sous ensemble Dg de Rk et differentiable au

point ν. Soit Tn des v.a. a valeurs dans Dg. Si rn(Tn − ν)L−→ T , pour une suite rn ∞, alors

rn(g(Tn)− g(ν))L−→∇νg(ν)T. De plus rn(g(Tn)− g(ν))−∇νg(ν)(rn(Tn − ν))

P−→ 0.

Demonstration rn(Tn−ν) converge en distribution, la suite rn(Tn−ν) est bornee en probabilite etTn−ν tend vers 0. La differentiabilite de la fonction g implique que g(ν+h) = g(ν)+∇νg(ν)h+R(h)et R(h) = o(‖h‖). Le lemme 6.7.3 montre que :

g(Tn)− g(ν)−∇νg(ν)(Tn − ν) = R(Tn − ν) = oP (‖Tn − ν‖).

En multipliant les deux membres de l’identite precedente par rn, nous avons donc :

rn(g(Tn)− g(ν)) = ∇νg(ν)(rn(Tn − ν)) + oP (1).

Nous concluons an appliquant le lemme de Slutsky.

94

Page 96: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

6.9 Convergence des moments

Par definition XnL−→X implique que pour toute fonction continue bornee f , E f(Xn)] →

E f(X). La condition bornee n’est pas superflue, et il est tres facile de trouver des exemples de

suite de variables verifiant XnL−→X et pour lesquelles nous n’avons pas E f(Xn) → E f(X) pour

f une fonction continue non bornee.

Definition 6.9.1 (Uniforme Integrabilite)Une suite de v.a. Yn est dite uniformement integrable si

limM→∞

lim supn→∞

E ‖Yn‖1(‖Yn‖ ≥M) = 0.

Remarquons tout d’abord que l’uniforme integrabilite implique E ‖Yn‖ est majore independammentde n. En effet, il existe M et C > 0 tels que, pour tout n

E ‖Yn‖1(‖Yn‖ ≥M) ≤ C,

ce qui implique

E ‖Yn‖ = E ‖Yn‖1(‖Yn‖ ≤M)+ E ‖Yn‖1(‖Yn‖ ≥M) ≤M + C

pour tout n. Comme le montre le theoreme ci-dessous, l’uniforme integrabilite permet de relier laconvergence en loi et la convergence des moments.

Theoreme 6.9.2Soit f : Rk 7→ R une fonction borelienne continue en tout point de C ∈ B(Rk). Supposons que

XnL−→X et P(X ∈ C) = 1. Alors, E f(Xn) → E f(X) si et seulement si la suite f(Xn) est

uniformement integrable.

Demonstration Nous ne montrons ici que la reciproque. Posons Yn = f(Xn) et supposons que Ynest uniformement integrable. Nous allons montrer que E Yn → E Y , ou Y = f(X). Nous supposonssans perte de generalite que Yn est positive (il suffit autrement de raisonner sur les parties positives et

negatives separement). Le theoreme de continuite montre que YnL−→ Y . Nous notons a∧ b = inf(a, b).

L’inegalite triangulaire donne d’une part

E Y ∧M ≤ |E Yn ∧M − E Y ∧M |+ E Yn ∧M

et d’autre part

|E Yn − E Y | ≤ |E Yn − E Yn ∧M |+ |E Yn ∧M − E Y ∧M |+ |E Y ∧M − E Y | .

Comme la fonction y → y∧M est continue et bornee, |E Yn ∧M−E Y ∧M | → 0 quand n→∞.Le second terme de la partie droite de la premiere inegalite est majoree independamment de M (voirci-dessus), donc E Y <∞. Le premier terme et le troisieme termes de la partie droite de la secondeinegalite peuvent etre rendus arbitrairement petits en utilisant respectivement l’uniforme integrabiliteet E Y <∞, ce qui acheve la demonstration de l’implication reciproque.

95

Page 97: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Une consequence elementaire de l’exemple precedent est donnee ci-apres.

Proposition 6.9.3Si Xk, k ∈ N est une famille de vecteurs aleatoires gaussiens, alors les deux assertions suivantessont equivalentes.

(i) limk→∞

E Xk = µ et limk→∞

Cov(Xk) = Σ

(ii) XkL−→N(µ,Σ).

Demonstration Par le procede de Cramer-Wold, il suffit de montrer ce resultat en dimension un.En dimension un, on note Σ = σ2. (i) ⇒ (ii) est alors une simple application du lemme 6.7.2 deSlutsky puisque (Xk − E Xk)/

√varXk suit une loi N(0, 1) pour tout k. D’autre part, le theoreme

de convergence domine applique a

E f(Xk) =1√

2πvar(Xk)

∫f(t) exp(−(t− E Xk)2/(2var(Xk))) dt

pour tout f continue bornee montre que si var(Xk)→∞, E f(Xk) → 0, ce qui est impossible sous(ii). Il en est de meme pour toute sous-suite var(Xαk). On en conclut que (ii) implique que var(Xk)est majore independamment de k. Dans ce cas il est facile de voir que E Xk a aussi une limite car lecontraire impliquerait que P|X| ≤M = 0 pour tout M > 0. Par un simple changement de variable,on montre que pour tout p > 0, il existe une constante cp telle que, pour toute variable gaussienne

centree Y , E |Y |p = cp(EY 2

)p2 . Il s’en suit que

(E |Xk|p)1p ≤ (E |Xk − EXk|p)

1p + |E Xk | ≤ cpvar1/2(Xk) + |E Xk |

est majore independamment de k pour tout p > 0. On obtient d’apres l’exemple ?? que les momentsEXqk

converge vers E[Xq] pour tout q > 0. Les cas q = 1 et q = 2 donnent (i), ce qui acheve la

demonstration.

96

Page 98: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 7

Estimation de la moyenne et de lafonction d’autocovariance

7.1 Estimation de la moyenne

Soit Xt un processus aleatoire a temps discret stationnaire au second ordre, de moyenne E X0 =µ, et de fonction d’autocovariance γ. On suppose avoir observe n echantillons consecutifs X1, . . . Xn

du processus. L’estimateur de µ que nous considerons est la moyenne empirique definie par :

µn =1

n

n∑t=1

Xt (7.1)

On constate tout d’abord que µn est un estimateur sans biais de la moyenne µ car

E µn =1

n

n∑t=1

E Xt = µ (7.2)

du fait de la stationnarite. Le risque quadratique de l’estimateur, qui mesure sa dispersion autour dela valeur inconnue µ de la moyenne, a pour expression

R(µn, µ) = E

(µn − µ)2

= E

1

n2

n∑s=1

n∑t=1

(Xt − µ)(Xs − µ)

=

1

n2

n∑s=1

n∑t=1

γ(t− s) =1

n

n−1∑h=−n+1

(1− |h|

n

)γ(h) (7.3)

D’ou la proposition suivante :

Proposition 7.1.1Soit Xt un processus stationnaire au second ordre de moyenne µ et de fonction d’autocovarianceγ(h) avec

∑|γ(h)| < ∞. Alors, le risque quadratique de l’estimateur de la moyenne empirique µn =

n−1∑n

t=1Xt verifie

limn→∞

nE

(µn − µ)2

= 2πf(0) ou f(λ) =1

∞∑τ=−∞

γ(τ)e−iτλ . (7.4)

97

Page 99: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

c’est a dire que µn converge en moyenne quadratique vers µ, a la vitesse√n. De plus limn→∞ µn = µ

P-p.s.

Demonstration Lorsque γ(h) est absolument sommable, le theoreme de la convergence domineeappliquee a (7.3) montre que

limn→∞

nR(µn, µ) =∞∑

h=−∞limn→∞

(1− |h|

n

)γ(h) =

∞∑h=−∞

γ(h) = 2πf(0)

ou f(λ) = (2π)−1∑∞

h=−∞ γ(h)e−ihλ est la densite spectrale du processus Xt. La preuve de laconvergence presque sure de µn est laissee a titre d’exercice.

Cette proposition montre que la loi des grands nombres, etablie classiquement pour des variablesaleatoires independantes, est egalement valable pour un processus stationnaire au second ordre, dumoment que la fonction d’autocovariance decroıt suffisamment rapidement a l’infini. Sous cette condi-tion, il est possible d’estimer la moyenne a partir d’une seule realisation de celui-ci. La proposition 7.1.1nous donne acces a la valeur limite de E

(√n(µn − µ))2

. Cependant pour construire des intervalles

de confiance pour les parametres estimes (cf. definition ??) ou pour tester des hypotheses concernantla valeur des parametres (voir definition ??), il est necessaire d’obtenir un resultat plus precis portantsur la distribution limite de

√n(µn − µ). L’obtention de theoremes de type limite centrale pour des

suites de variables aleatoires dependantes est un sujet delicat, qui a donne lieu a une vaste litterature.Il n’est bien entendu pas question ici de presenter une theorie generale et nous nous contentons doncd’enoncer un resultat valable dans le cas de processus lineaire fort.

Le fait de devoir emettre une hypothese aussi contraignante sur la loi du processus dans un contexteou, en fait, seules les proprietes au second ordre nous interessent est bien sur frustrant, mais il traduitla difficulte technique d’un tel resultat (la preuve de ce theoreme est donnee dans la Section 7.3).

Theoreme 7.1.2Soit Xt un processus lineaire fort de moyenne µ. On a Xt = µ+

∑∞k=−∞ ψkZt−k avec

∑k |ψk| <∞

et Zt ∼ IID(0, σ2). On pose µn = n−1∑n

t=1Xt. Alors :

√n(µn − µ)

L−→N (0, 2πf(0)) (7.5)

ou f(0) = σ2|ψ(0)|2/(2π), ψ(λ) =∑∞

j=−∞ ψjeijλ, est la densite spectrale de Xt, t ∈ Z a la frequence

nulle 0.

7.1 Exemple (Moyenne empirique pour un processus AR(1) (fort)):Soit Xt un processus autoregressif d’ordre 1 fort, de moyenne µ, solution stationnaire au second ordre definipar l’equation de recurrence

Xt − µ = φ(Xt−1 − µ) + Zt

ou Zt ∼ IID(0, σ2) et |φ| < 1. Nous rappelons que la fonction d’autocovariance d’un processus AR(1)pour |φ| < 1 est donnee par

γX(k) =σ2

(1− φ2)φ|k|

98

Page 100: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et que la densite spectrale de ce processus a pour expression

f(λ) =σ2

2π |1− φe−iλ|2

Dans ce cas, la variance limite qui intervient dans l’equation (7.5), est donnee par 2πf(0) = σ2/(1− φ)2.Cette valeur est a comparer avec la variance de Xt donnee par γ(0) = σ2/(1 − φ2). On constate que lerapport 2πf(0)/γ(0) = (1 + φ)/(1 − φ) tend vers 0 lorsque φ → −1 et vers +∞ lorsque φ → 1. Ce quiimplique par exemple lorsque l’on considere l’intervalle de confiance asymptotique de niveau 95% pour lamoyenne µ donne par [µn − 1.96σn−1/2/(1− φ), µn + 1.96σn−1/2/(1− φ)] que la longueur de l’intervallede confiance est minimale lorsque φ = −1 (correlation negative). et maximale lorsque φ → 1 (correlationpositive).

7.2 Estimation des coefficients d’autocovariance et d’auto-correlation

Considerons a nouveau un processus Xt stationnaire au second ordre, de moyenne µ et de fonctiond’autocovariance γ(h) supposee de module sommable. Pour estimer la suite γ(h), nous considerons lesestimateurs, dits de covariances empiriques, definis par :

γn(h) =

n−1

∑n−|h|t=1 (Xt+|h| − µn)(Xt − µn) si |h| ≤ n− 1

0 sinon(7.6)

ou µn = n−1∑n

t=1Xt. Remarquons que le nombre d’observations, dont nous disposons, etantprecisement egal a n, il n’existe pas de paires d’observations separees de plus de n − 1 intervallesde temps et donc l’expression (7.6) ne permet pas d’estimer les valeurs de γ(h) pour |h| ≥ n. De plus,lorsque |h| est proche de n, il est clair que l’estimateur (7.6) de la covariance n’est pas fiable, dans lamesure ou on ne dispose que de peu de paires d’observations (Xt, Xt+|h|), ce qui implique que l’effetde moyennage statistique ne peut pas jouer. La partie la plus utile de la fonction d’autocovarianceempirique est celle qui correspond au valeurs du decalage h significativement plus faibles que le nombred’observations n. A echantillon fini, γn(h) est un estimateur biaise de γ(h). Un calcul simple montrepar exemple que

E γn(0) = γ(0)− 1

n

(n−1)∑k=−(n−1)

(1− |k|

n

)γ(k)

Toutefois on peut montrer que, pour tout h, l’estimateur donne par (7.6) est asymptotiquement sansbiais dans le sens ou limn→∞ E γn(h) = γ(h) a la vitesse 1/n. Une propriete importante de cetestimateur est que la suite γn(h) est de type positif. En effet, si on definit le periodogramme par 1

In(λ) =1

2πn

∣∣∣∣∣n∑t=1

(Xt − µn)e−itλ

∣∣∣∣∣2

(7.7)

1. Le periodogramme joue un role fondamental pour l’estimation de la densite spectrale etudiee dans le chapitre 8.

99

Page 101: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Par construction, In(λ) est une fonction positive pour λ ∈ [−π, π]. Par ailleurs,∫ π

−πeiλhIn(λ)dλ =

1

n

n∑t=1

n∑s=1

(Xt − µn)(Xs − µn)1

∫ π

−πeiλ(h−t+s) = γn(h)

Par consequent, d’apres le theoreme d’Herglotz 3.3.1, la suite γn(h) est de type positif.

Proposition 7.2.1Si γn(0) > 0 alors, pour tout p ≤ n, la matrice Γn,p definie par

Γn =

γn(0) γn(1) · · · γn(p− 1)γn(1) γn(0) · · · γn(p− 2)

...γn(p− 1) γn(p− 2) · · · γn(0)

(7.8)

est de rang plein et est donc inversible.

Demonstration La suite γn(h) est de type positif, γn(0) > 0 et γn(h) tend vers 0 quand n tend versl’infini. On en deduit, d’apres la propriete 3.3.5, que, pour tout p, la matrice est inversible.

L’estimateur dit non biaise de la fonction d’autocovariance obtenu en remplacant n−1 par (n− |h|)−1

dans l’expression (7.6) ne definit pas une suite de type positif. Ajoute au fait que ces deux estima-teurs sont asymptotiquement equivalents, l’estimateur non biaise presente peu d’interet dans le cas desseries temporelles et n’est que tres rarement utilise. Les coefficients d’autocovariance empiriques inter-viennent quasiment dans tous les problemes d’inference statistique portant sur les processus station-naires. A l’instar de la moyenne empirique, il est donc indispensable de disposer de resultats concernantleur distribution. Cependant, meme pour les modeles de processus les plus simples, il est en generalimpossible de preciser la distribution exacte de la suite de variables aleatoires γn(0), . . . , γn(K) pourun nombre d’echantillons n donne. Nous ne considerons ici que des resultats asymptotiques concernantla distribution limite jointe des coefficients d’autocovariance [γn(0), . . . , γn(K)], pour K fixe, lorsquen tends vers l’infini.

Theoreme 7.2.2Soit Xt, t ∈ Z un processus lineaire defini par Xt − µ =

∑∞s=−∞ ψsZt−s avec

∑s |ψs| < ∞. On

suppose que Zt ∼ IID(0, σ2) verifie EZ4t

= ησ4. Pour K ≥ 1, notons γn

def= [γn(1), . . . , γn(K)]T ,

γdef= [γ(1), . . . , γ(K)]T et V la matrice de dimension K ×K dont l’element Vp,q est donne par

Vp,qdef= (η − 3)γ(p)γ(q) +

∞∑−∞

[γ(u)γ(u− p+ q) + γ(u+ q)γ(u− p)] .

Alors, √n (γn − γ)

L−→N (0, V ) .

La preuve de ce resultat est donne dans le paragraphe 7.3.

100

Page 102: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Il est aussi interessant, et souvent plus pratique, de considerer la distribution limite des coefficientsd’autocorrelations [ρn(0), . . . , ρn(K)]. On rappelle que les coefficients d’autocorrelation sont definispar

ρ(h) =γ(h)

γ(0)

et qu’ils verifient |ρ(h)| ≤ ρ(0) = 1 (cf. paragraphe ??). On definit les coefficients d’autocorrelationempiriques par

ρn(h) =γn(h)

γn(0)(7.9)

ou γn(h) est donne par (7.6).

Theoreme 7.2.3Soit Xt un processus lineaire defini par Xt − µ =

∑∞s=−∞ ψsZt−s avec

∑s |ψs| < ∞. On suppose

que Zt ∼ IID(0, σ2) verifie EZ4t

< ∞. Pour K ≥ 1, on note ρn = (ρn(1), . . . , ρn(K))T , ρ =

(ρ(1), . . . , ρ(K))T et W = [wp,q, p, q = 1, . . . ,K] la matrice de dimension K × K definie, pour 1 ≤p, q ≤ K, par l’element :

wp,q

∞∑u=1

(ρ(u+ p) + ρ(u− p)− 2ρ(u)ρ(p))(ρ(u+ q) + ρ(u− q)− 2ρ(u)ρ(q)) (7.10)

Alors : √n(ρn − ρ)→d N (0,W ) (7.11)

Il est remarquable de noter que la distribution des coefficients d’autocorrelation ne depend pas desmoments du processus Zt (on a uniquement suppose que Zt ∼ IID(0, σ2) avec un moment du 4emeordre fini). Comme dans le cas du theoreme 7.1.2, on constate qu’il est necessaire d’admettre deshypotheses relativement fortes pour garantir ce resultat. La preuve est donnee dans le paragraphe 7.3.

7.2 Exemple (Bruit blanc fort):Soit Xt ∼ IID(0, σ2). Dans ce cas ρ(h) = 0 pour tout h 6= 0 et la matrice de covariance asymptotiqueW est egale a la matrice identite. L’expression (7.11) montre que, lorsque la taille de l’echantillon n tendvers l’infini, le vecteur des coefficients d’autocorrelation empiriques multiplie par la racine carree du nombred’echantillons

√n[ρn(1), . . . , ρn(K)] converge vers un vecteur gaussien, centre et de covariance identite.

On en deduit que, si Xt est un bruit blanc fort, pour tout h 6= 0 :

limn→∞

P[−1.96n−1/2 ≤ ρn(h) ≤ 1.96n−1/2

]= 0.95 (7.12)

Ce resultat peut etre utilise pour definir des tests asymptotiques de l’hypothese nulle H0 : ”Xt estun bruit blanc fort”. Considerons en effet la procedure de test consistant a accepter l’hypothese nulle siρn(h) appartient a l’intervalle [−1.96n−1/2, 1.96n−1/2] et a la rejeter sinon est un test de l’hypothesenulle dont l’erreur de premiere espece tend, lorsque n → ∞, vers 0, 05. Nous avons represente figure7.1 les 60 premiers coefficients d’autocorrelation empiriques d’un echantillon de taille n = 500, d’un bruitblanc fort, gaussien, centre, de variance σ2 = 1. En utilisant la formule (7.12), nous avons representel’intervalle asymptotique [−1.96n−1/2, 1.96n−1/2] autour de la vraie valeur ρ(h) = 0. Pour les valeurs des

101

Page 103: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 10 20 30 40 50

−0.2

0

0.2

0.4

0.6

0.8

1

Figure 7.1 – Fonction d’autocorrelation empirique pour un echantillon debruit blanc fort, gaussien, centre, de variance σ2 = 1. Le nombre d’echantillonsest egal a n = 500. Les droites en pointille representent les extremites desintervalles [−1.96n−1/2, 1.96n−1/2].

retards h pour lesquelles l’autocorrelation empirique appartient a l’intervalle [−1.96n−1/2, 1.96n−1/2] letest d’hypothese decrit ci-dessus est accepte.

Ce type de visualisation ou l’on represente les coefficients d’autocorrelation empiriques ainsi que lesextremites des intervalles [−1.96n−1/2, 1.96n−1/2] pour les estimateurs correspondants dans le cas dubruit blanc (fort) est classique dans le domaine des series temporelles ou il est designe sous le nom decorrelogramme. Il permet de detecter visuellement les retards pour lesquels les coefficients de correlationsont ou ne sont pas compatibles avec l’hypothese de bruit blanc fort (comme dans le cas de la figure 7.2par exemple).

Il faut toutefois faire attention quand on considere simultanement plusieurs valeurs de retards, car si lerisque de premiere espece de chaque test individuel est asymptotique egal a 0,05, il est difficile d’evaluer lerisque d’un test consistant a prendre en consideration simultanement une plage de valeurs de retards, carnous ne prenons pas en compte la dependance entre les differents tests.

Nous pouvons toutefois deduire du Theoreme precedent un test de l’hypothese nulle prenant en comptesimultanement une plage de valeurs de retards. En effet, le Theoreme 7.2.3 montre que, sous l’hypotheseque Xt, t ∈ Z est un bruit blanc fort, la statistique Tn =

∑Kl=1 ρn(l)2 est distribuee suivant une loi du

χ2 centre a K degres de liberte. Le test consistant a accepter l’hypothese nulle si la valeur prise par lastatistique Tn est inferieure au quantile a 95% de la loi du chi2 centre a K degres de liberte, a une erreurde premiere espece asypmptotique egale a 0,05.

7.3 Exemple (Processus MA(1)):On considere le processus MA(1) defini par Xt = Zt + θ1Zt−1 ou Zt est un bruit blanc fort, centre, de

102

Page 104: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

variance σ2. Ici, la suite des coefficients d’autocorrelation est donnee par :

ρ(h) =

1 pour h = 0

θ1

1 + θ21

pour |h| = 1

0 pour |h| ≥ 2

On en deduit, d’apres (7.10), que les elements diagonaux de la matrice de covariance de la distributionlimite des coefficients d’autocovariance empiriques ont pour expression :

Wh,h =

1− 3ρ2(1) + 4ρ4(1) pour |h| = 11 + 2ρ(1)2 pour |h| ≥ 2

Par consequent la zone credible a 95% pour les coefficients d’autocorrelation empiriques sont donnes, pourh = 1, par :

ρn(1) ∈[ρ(1)− 1.96W

1/21,1 n

−1/2 ρ(1) + 1.96W1/21,1 n

−1/2]

et, pour h ≥ 2, par :

ρn(h) ∈[−1.96W

1/22,2 n

−1/2 + 1.96W1/22,2 n

−1/2]

Notons ici que ces regions dependent, par l’intermediaire de ρ(1), de la quantite a priori inconnue θ1. Nousavons represente figure 7.2 les 60 premiers coefficients d’autocorrelation empiriques d’un echantillon delongueur n = 500 d’un processus MA(1) defini par θ1 = −0.8 et σ = 1. Les traits en pointille represententles bornes asymptotiques autour des vraies valeurs au niveau 95%.

0 10 20 30 40 50

−0.5

0

0.5

1

Figure 7.2 – Fonction d’autocorrelation empirique d’un echantillon de lon-gueur n = 500) d’un processus MA(1) pour θ1 = −0.8 et donc ρ(1) = −0.4878.

7.4 Exemple (Processus autoregressif fort d’ordre 1):On considere le processus aleatoire Xt defini par :

Xt = φXt−1 + Zt

103

Page 105: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou Zt ∼ IID(0, σ2) et ou |φ| < 1. La fonction d’autocorrelation d’un tel processus est donnee parρ(h) = φ|h| et les elements diagonaux de la matrice de covariance W sont donnes par

Wh,h =h∑

m=1

φ2h(φ−m − φm)2 +∞∑

m=h+1

φ2m(φ−i − φi)2

= (1− φ2h)(1 + φ2)(1− φ2)−1 − 2hφ2h

Considerons la sequence, de longueur n = 1800, des battements cardiaques representes figure 1.1 (cha-pitre 1). La figure 3.2 qui represente les couples (Xt, Xt−1) suggere fortement la presence d’une relationlineaire entre les variables Xt et Xt−1 et invite donc a tester la validite d’un modele autoregressif d’ordre1. Pour estimer le parametre φ du modele autoregressif, une methode naturelle, compte tenu de l’allurede la fonction d’autocorrelation de l’AR(1), consiste a utiliser comme estimateur φn = ρn(1) qui donneφn = 0.966. Pour tester la validite du modele, deux solutions s’offrent a nous : (i) tester que les residusde prediction donnes par Zt = Xt − µn − φn(Xt−1 − µn) sont compatibles avec un modele de bruit blanc,(ii) verifier directement que les coefficients d’autocorrelation empiriques sont compatibles avec ceux d’unmodele AR(1). Les residus de prediction sont reportes figure 7.3 et la fonction d’autocorrelation de cesresidus figure 7.4, ou nous avons aussi indique les bornes de la zone credible a 95% pour le bruit blancavec un nombre d’observations n = 1800. Les correlations empiriques, en particulier pour h = 2, sontsignificativement a l’exterieur des intervalles de confiance du bruit blanc, ce qui conduit a rejeter le modelede bruit blanc pour les residus et donc le modele autoregressif d’ordre 1 pour les observations. Les resultatsde l’analyse de la suite des coefficients d’autocorrelation empiriques du processus et des zones crediblesa 95% sous l’hypothese d’un modele AR(1) avec φ = 0.966 sont reportes figure 7.5. On observe que lespremieres valeurs des coefficients de correlation sont nettement a l’exterieur de cette zone, ce qui contribueici encore a rejeter le modele AR(1).

0 200 400 600 800 1000 1200 1400 1600 1800−20

−10

0

10

20

Figure 7.3 – Serie des battements cardiaques : Residu de prediction Zt =(Xt − µn)− φn(Xt−1 − µn).

104

Page 106: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 10 20 30 40 50 60 70 80 90−0.2

0

0.2

0.4

0.6

0.8

1

1.2

Figure 7.4 – Serie des battements cardiaques : coefficients d’autocorrelationempiriques des residus de prediction Zt = (Xt− µn)− φn(Xt−1− µn) et zonescredibles a 95% pour le bruit blanc (n = 1800).

0 10 20 30 40 50 60 70 80 90−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figure 7.5 – Serie des battements cardiaques : coefficients d’autocorrelationempiriques de la serie et bornes des zones credibles a 95% pour un modeleAR(1) de parametre φ = 0.966.

105

Page 107: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

7.3 Theoremes Limites pour les observations dependantes

Les preuves sont basees sur le Theoreme d’approximation suivant

Theoreme 7.3.1Soient (An, n ≥ 0), (Bm,m ≥ 0), (Bm,n,m ≥ 0, n ≥ 0) et B des vecteurs aleatoires verifiant

(i) Pour tout m, Bm,nL−→Bm quand n→∞,

(ii) BmL−→B pour m→∞,

(iii) Pour tout ε > 0, limm→∞ lim supn→∞ P (|An −Bm,n| ≥ ε) = 0.

Alors AnL−→B quand n→∞.

Remarque 7.1 Pour etablir la condition (iii) il est souvent pratique d’utiliser l’inegalite de Markov.

Demonstration En appliquant le Theoreme de Levy (voir Theoreme 6.3.3), il suffit de montrerque, pour tout λ, φAn(λ) → φB(λ), ou φZ(λ) est la fonction caracteristique du vecteur aleatoire Z.L’inegalite triangulaire montre que

|φAn(λ)− φB(λ)| ≤ |φAn(λ)− φBm,n(λ)|+ |φBm,n(λ)− φBm(λ)|+ |φBm(λ)− φB(λ)| .

Considerons tout d’abord le premier terme.

|φAn(λ)− φBm,n(λ)| =∣∣∣EeiλtAn

− E

eiλtBm,n

∣∣∣≤ E

∣∣∣eiλtAn(

1− ei(λtBm,n−λtAn))∣∣∣

≤ E∣∣∣1− ei(λtBm,n−λtAn)

∣∣∣ .Pour δ > 0, posons Am,n(δ)

def= |λtBm,n − λtAn| ≥ δ. Nous avons donc :

|φAn(λ)− φBm,n(λ)| ≤ E∣∣∣1− ei(λtBm,n−λtAn)

∣∣∣1Am,n(δ)

+ E

∣∣∣1− ei(λtBm,n−λtAn)∣∣∣1Acm,n(δ)

.

Pour λ et ε > 0, nous choisissons δ(ε) tel que∣∣∣1− ei(λtBm,n−λtAn)

∣∣∣1Acm,n(δ(ε)) < ε. Comme∣∣∣1− ei(λtBm,n−λtAn)∣∣∣ ≤ 2, l’inegalite precedente implique

|φAn(λ)− φBm,n(λ)| ≤ 2P [Am,n(δ(ε))] + ε .

Comme limm→∞ lim supn→∞ P [Am,n(δ(ε))] = 0, nous pouvons choisir un entier m(ε) tel que, pour toutm ≥ m(ε) il existe un entier n(m, ε) tel que

P [Am,n(δ(ε))] ≤ ε , pour tout n ≥ n(m, ε) .

La condition (ii) montre que l’on peut choisir m ≥ m(ε) assez grand pour que |φBm(λ)− φB(λ)| ≥ ε|.La condition (i) montre que l’on peut choisir n ≥ n(m, ε) suffisamment grand pour que |φBm,n(λ) −φBm(λ)| < ε, ce qui conclue la preuve du Theoreme.

106

Page 108: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Nous allons maintenant etendre le Theoreme de la Limite Centrale dans un cadre dependant. Nousnous allons tout d’abord etablir ce theoreme pour des suites m-dependantes, puis nous etendrons ceresultat aux processus lineaires au sens fort.

Definition 7.3.2 (Processus M-dependant)Nous dirons que le processus Xk, k ∈ Z est M -dependant, si pour tout n ∈ Z, les tribus Pn

def=

σ(Xk, k ≤ n) et Fn+m+1def= σ(Xk, k ≥ n+m+ 1) sont independantes.

Theoreme 7.3.3Soit Xk, k ∈ Z un processus stationnaire au sens strict M -dependant. Nous supposons que E

X2

0

<

∞ et nous notons par γ(·) la fonction d’autocovariance du processus. Alors,

√n(Xn − µ

) L−→N (0, VM ) ,

ou µ = E X0 et VM =∑M

h=−M γ(h).

Demonstration Sans perte de generalite, nous supposons que µ = 0. Nous allons utiliser le Theoremed’approximation 7.3.1 en construisant un tableau de variables aleatoires Bm,n, (m,n) ∈ N × Napprochant An

def= n1/2Xn. Pour m ≥ 2M , considerons

Bm,n = n−1/2 [(X1 + · · ·+Xm−M ) + (Xm+1 + · · ·+X2m−M ) + (X(rn−1)m+1 + · · ·+Xrnm−M )]

ou rn = bn/mc. Cette approximation contient une partie des termes de Xn, mais les variables aleatoiresZm,k = (X(k−1)m+1 + · · · + Xkm−M ), k ∈ 1, . . . , r sont independantes. Comme le processus eststationnaire au sens strict, les vecteurs aleatoires Zm,1, . . . , Zm,r sont independants et identiquementdistribues de moyenne nulle et de variance

Sm−Mdef=

∑|h|≤M

(m−M − |h|)γ(h) ,m ≥ 2M . (7.13)

Nous allons verifier que cette approximation satisfait les conditions du Theoreme 7.3.1.

(i) En appliquant le Theoreme de Limite Centrale aux vecteurs aleatoires Zm,k, k ≥ 0, nousobtenons

Bm,n = n−1/2rn∑k=1

Zm,k = (n/rn)−1/2r−1/2n

rn∑k=1

Zm,k ,

et en utilisant limn→∞(n/rn)−1/2 = m1/2, nous obtenons Bm,nL−→Bm lorsque n → ∞, ou Bm

est une variable aleatoire Gaussienne de moyenne nulle et de variance Sm−M/m.

(ii) Comme limm→∞ Sm−M/m = VM , nous avons BmL−→B, ou B est une variable aleatoire gaus-

sienne de moyenne nulle et de variance VM . En effet, la fonction caracteristique est donneepar φBm(λ) = e−λ

2Sm−M/m et, donc, limm→∞ φBm(λ) = φVM (λ) et le resultat est donc uneconsequence de la caracterisation du Theoreme Levy (voir Theoreme 6.3.3).

(iii) Pour verifier la derniere condition, considerons la difference

n−1/2Xn −Bm,n = n−1/2 (Wm,1 + · · ·+Wm,rn) ,

107

Page 109: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou Wm,k = Xkm−M+1 + · · · + Xkm pour 1 ≤ k ≤ rn − 1 et Wm,rn = Xrnm−M+1 + · · · + Xn.Les variables aleatoires Wm,k, 1 ≤ k ≤ rn sont independantes. La variance des rn − 1 premieresvariables est egale a SM ou SM est defini par (7.13). La variance de Wm,rn est donnee par

Var(Wm,rn) =∑

|u|≤m−M

(n− bn/mcm+M − |u|) γ(u) ≤∑

|u|≤m−M

(m+M − |u|)γ(u) .

En utilisantVar

(n−1Xn −Bm,n

)= n−1 [(rn − 1)SM + Var(Wm,rn)] ,

nous avonslim supn→∞

Var(n−1Xn −Bm,n

)= m−1SM ,

et donclimm→∞

lim supn→∞

Var(n−1Xn −Bm,n

)= 0 .

En utilisant le resultat precedent, nous allons etablir le Theoreme Central Limite pour la moyenneempirique d’un processus lineaire au sens fort

Xt = µ+∞∑

j=−∞ψjZt−j , (7.14)

ou Zt, t ∈ Z sont des variables aleatoires independantes et identiquement distribuees (bruit blancfort), de moyenne nulle et de variance σ2 et

∞∑j=−∞

|ψj | <∞ . (7.15)

Remarquons tout d’abord que si le processus Zt, t ∈ Z est un bruit blanc fort gaussien, la variableXn est elle aussi gaussienne, de moyenne nulle et de variance

Var(Xn) = n−1∑|u|<n

(1− |u|

nγ(u)

),

et comme

limn→∞

∑|u|<n

(1− |u|

nγ(u)

)=

∞∑u=−∞

γ(u) = σ2

∞∑j=−∞

ψj

2

def= V , (7.16)

nous avons donc√n(Xn − µ

) L−→N (0, V ). Nous allons montrer que ce resultat reste vrai de facongenerale.

Theoreme 7.3.4Soit Xt, t ∈ Z un processus lineaire fort (7.14) tel que

1. Zt, t ∈ Z est un bruit blanc fort de moyenne nulle et de variance σ2

2.∑

j∈Z |ψj | <∞.

108

Page 110: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Alors

√n(Xn − µ

) L−→N (0, V ) , V = σ2

∞∑j=−∞

ψj

2

.

Demonstration Sans perte de generalite, nous supposons que µ = 0. Pour etablir ce resultat, nousallons utiliser encore le Theoreme d’approximation 7.3.1. L’idee est d’approcher le processus Xt, t ∈Z, par une suite de processus 2m-dependant, Xm

t =∑m

i=−m ψiZt−i et nous construisons les variables :

Ym,n = n1/2n∑t=1

Xmt .

1. En appliquant le Theoreme 7.3.3, nous avons, pour tout m, Ym,nL−→ Ym quand n→∞, ou Ym

est une variable aleatoire gaussienne de moyenne nulle et de variance Vm, avec

Vm =

2m∑h=−2m

γm(h) = σ2

m∑j=−m

ψj

2

. (7.17)

2. Comme Vm → V quand m → ∞, nous avons, YmL−→ Y , ou Y est une variable aleatoire gaus-

sienne de moyenne nulle et de variance V = σ2(∑∞

j=−∞ ψj

)2.

3. Finalement,

Var(n1/2Xn − Ym,n

)= nVar

n−1n∑t=1

∑|j|>m

ψjZt−j

= σ2

∑|j|≥m

ψj

2

qui convergence vers 0 quand m→∞.

Nous allons maintenant etudier les distributions asymptotique de la fonction d’autocovariance etd’autocorrelation. Considerons, pour h ≥ 0,

γn(h) = n−1n∑t=1

(Xt+h − µ)(Xt − µ) . (7.18)

Cette quantite est plus facile a etudier que l’autocovariance empirique γn(h) = n−1∑n−h

t=1 (Xt −Xn)(Xt+h − Xn) et comme

n1/2 (γn(h)− γn(h)) = oP (1) ,

les distributions limites de γ(h) et de γ(h) sont identiques. Nous allons tout d’abord calculer la varianceet la variance asymptotique de γn(h) lorsque Xt, t ∈ Z est un processus lineaire fort dont le bruit

109

Page 111: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

blanc tel que EZ4

0

= ησ4 < ∞ ou η est une constante. Notons que E γn(h) = γ(h). Nous allons

verifier tout d’abord que pour tout p, q ≥ 0,

Cov(γn(p), γn(q)) = n−1

(n−1)∑u=−(n−1)

(1− |u|

n

)Vu , (7.19)

ouVu

def= γ(u)γ(u+ p− q) + γ(u+ p)γ(u− q) + (η − 3)σ4

∑i

ψi+u+qψi+uψi+pψi . (7.20)

L’absolue sommabilite de ψt, t ∈ Z implique que∑

u∈Z |Vu| < ∞. Le theoreme de convergencedomine implique donc que

limn→∞

nCov(γn(p), γn(q)) =

∞∑u=−∞

Vu (7.21)

= (η − 3)γ(p)γ(q) +∞∑

u=−∞[γ(u)γ(u+ p− q) + γ(u+ p)γ(u− q)] . (7.22)

Ce calcul est elementaire mais un peu complique, et nous n’en donnons que les elements essentiels enlaissant les details au lecteur : Notons tout d’abord que

E γn(p)γn(q) = n−2∑s,t

∑i,j,k,`

ψs+p−iψs−jψt+q−kψt−`E ZiZjZkZ` .

Nous evaluons ensuite E ZiZjZkZ`. Un calcul elementaire montre que

E ZiZjZkZ` =

ησ4 si i = j = k = `

4σ4 si i = j 6= k = ` ou i = k 6= j = ` ou i = ` 6= j = k

0 sinon

La formule s’obtient ensuite directement en decomposant la somme. En utilisant cette formule devariance, nous pouvons obtenir un premier resultat sur la distribution asymptotique des coefficientsd’autocovariance :

Theoreme 7.3.5Soit Xt, t ∈ Z un processus lineaire defini par Xt − µ =

∑∞s=−∞ ψsZt−s avec

∑s |ψs| < ∞. On

suppose que Zt ∼ IID(0, σ2) verifie EZ4t

= ησ4. Pour K ≥ 1, notons γn

def= [γn(1), . . . , γn(K)]T ,

γdef= [γ(1), . . . , γ(K)]T et V la matrice de dimension K ×K dont l’element Vp,q est donne par

Vp,qdef= (η − 3)γ(p)γ(q) +

∞∑−∞

[γ(u)γ(u− p+ q) + γ(u+ q)γ(u− p)] . (7.23)

Alors, √n (γn − γ)

L−→N (0, V ) .

110

Page 112: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Nous allons etablir ce resultat en remplacant γn par γn = [γn(1), . . . , γn(K)]T ,car nous savons que ces deux quantites sont asymptotiquement equivalentes. Nous considerons toutd’abord le processus stationnaire au sens strict (2m+K)-dependant defini par

Y mt =

(Xm

t − µ)2

(Xmt+1 − µ)(Xm

t − µ)...

(Xmt+K − µ)(Xm

t − µ)

,ou Xm

tdef= µ+

∑|j|≤m ψjZt−j . La moyenne empirique de ce processus est donnee par

Y mn = n−1

n∑t=1

Y mt =

γmn (0)γmn (1)

...γmn (K)

,

ou, pour h ≥ 0,

γmn (h) = n−1n∑t=1

(Xmt+h − µ)(Xm

t − µ) .

Nous remarquons que

EYm,n

=

γmn (0)γmn (1)

...γmn (K)

ou γm(h) = Cov(Xm

0 , Xmh ). Nous allons appliquer le Theoreme d’approximation 7.3.1. Considerons le

vecteurBm,n = n1/2

(Ym,n − E

Ym,n

),

qui approche le vecteurAn = n1/2 (γn − γ) .

1. Soit c un (K+1)×1 vecteur deterministe, et appliquons le Theoreme Central Limite au processus(2m+K)-dependant cTYt. Nous obtenons

Bm,n = n1/2(Y mt − E

Y m

0

) L−→Bm

ou Bm est une variable aleatoire gaussienne de moyenne nulle et de variance cTV mc, les elementsV mp,q de la matrice V m etant donnes par,

V mp,q

def= (η − 3)γm(p)γm(q) +

∞∑−∞

[γm(u)γm(u− p+ q) + γm(u+ q)γm(u− p)] .

2. En remarquant que comme limm→∞ Vm = V , nous avons BmL−→B quand m → ∞, ou B est

une variable aleatoire gaussienne de moyenne nulle et de variance cTV c.

111

Page 113: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

3. Il reste a etablir l’uniformite de la convergence : pour tout ε > 0,

limm→∞

lim supn→∞

P (|Bm,n −An| ≥ ε) = 0 .

Comme

P(|Bm,n −An| ≥ ε) ≤K∑h=0

P(n1/2|γmn (h)− γn(h)| ≥ εK)

il suffit d’etablir (en utilisant l’inegalite de Bienayme-Tchebyshev) que

limm→∞

lim supn→∞

nVar(γmn (h)− γn(h)) = 0 . (7.24)

En utilisant l’identite

nVar(γmn (h)− γn(h)) = n [Var(γmn (h)) + nVar(γn(h)) + 2Cov(γmn (h), γn(h))] ,

et des calculs similaires a ceux que nous avons effectue pour etablir (7.19) and (7.21), nousobtenons (7.24).

Nous allons etendre le resultat precedent aux coefficients d’autocorrelation ρn(h) = γn(h)/γn(0).

Theoreme 7.3.6Soit Xt, t ∈ Z un processus lineaire defini par Xt − µ =

∑∞s=−∞ ψsZt−s avec

∑s |ψs| < ∞. On

suppose que Zt ∼ IID(0, σ2) verifie EZ4t

= ησ4. Pour K ≥ 1, notons ρn

def= [ρn(1), . . . , γn(K)]T ,

γdef= [γ(1), . . . , γ(K)]T et W la matrice de dimension K ×K dont l’element Wp,q est donne par

Wp,q ==∞∑u=1

[ρ(u+ p) + ρ(u− p)− 2ρ(p)ρ(u)] [ρ(u+ q) + ρ(u− q)− 2ρ(q)ρ(u)],

Alors, √n (γn − γ)

L−→N (0,W ) .

Demonstration La preuve est une application directe du Theoreme 7.2.2 par application de ladelta-methode (voir paragraphe 6.8). On considere la fonction g : RK+1 → RK definie pour x0 6= 0par

g(x0, x1, . . . , xK) = [x1/x0, . . . , xK/x0]T .

Nous avons,g(γn(0), . . . , γn(K)) = (ρn(1), . . . , ρn(K))T .

et une application directe de la Proposition 6.8.1 montre que

√n (g(γn(0), . . . , γn(K))− g(γ(0), . . . , γ(K)))

L−→N (0, DV DT )

112

Page 114: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou V est la matrice de covariance des coefficients d’autocovariance donnee par (7.23) et D est lamatrice jacobienne de la fonction g au point [γ(0), . . . , γ(K)],

D =1

γ(0)

2

−γ(1) γ(0) 0 . . . 0−γ(2) 0 γ(0) . . . 0

......

.... . .

...−γ(K) 0 0 . . . . γ(0)

.Cette matrice peut se reecrire de facon plus compacte

D =1

γ(0)[−ρIK ]

ou IK est la matrice identite K ×K. En ecrivant la matrice V sous la forme

V =

[v0,0 vT1v1 V2,2

]la matrice W peut s’ecrire

W = γ−2(0)[v0ρρ

T − ρvT1 − v1ρT + V2,2

],

ou v1 = [v1,0, v2,0, . . . , vK,0]T et V2,2 = [vp,q, p, q = 1, . . . ,K]. Un calcul elementaire montre que

wp,q = γ−2(0) [vp,q − ρ(p)v0,q − ρ(q)vp,0 + ρ(p)ρ(q)v0,0]

=

∞∑u=−∞

[ρ(u)ρ(u− p+ q) + ρ(u− p)ρ(u+ q) + 2ρ(p)ρ(q)ρ2(u)− 2ρ(p)ρ(u)ρ(u+ q)− 2ρ(q)ρ(u)ρ(u− p)

].

113

Page 115: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 8

Estimation de la densite spectrale

Dans le chapitre precedent, nous nous sommes interesses a l’estimation de la fonction d’autocova-riance. Dans certaines applications, il est plus pertinent d’essayer de modeliser la densite spectrale,qui decrit la facon dont l’energie du processus se repartit en frequence. L’information spectrale estsouvent plus riche et plus facile a interpreter que la fonction d’autocovariance, revelant des structures(par exemple, cycles ou pseudo-cycles) qui ne sont pas directement visibles sur la forme d’onde nimeme sur la suite des correlations. Pour nous en convaincre considerons l’exemple de la forme d’onderepresentee figure 8.1. Il s’agit d’un segment d’environ 40 millisecondes extrait d’un enregistrementd’un son produit par un harmonica. La forme d’onde est complexe, refletant les deux caracteristiquesessentielles du signal produit par cet instrument : des composantes cycliques liees aux vibrations deslames metalliques modulant de facon quasi-periodique le flux d’air et un bruit de friction. La fonc-tion d’autocorrelation, que nous avons representee a gauche figure 8.2, revele en effet des structurestemporelles complexes mais cette representation n’est pas apte a reellement mettre en evidence lapresence de (pseudo)-cycles. Ceux-ci apparaissent, par contre, clairement quand on observe le modulede la transformee de Fourier du signal (a droite figure 8.2). Cette representation frequentielle n’esttoutefois pas tout a fait satisfaisante, car elle est tres “bruitee”, ce qui rend difficile son interpretation.Cette variabilite est simplement la traduction, dans le domaine de Fourier, de la variabilite que nousobservons dans la forme d’onde. L’objet de ce chapitre est de trouver une methode d’estimation

spectrale qui, tout en preservant les structures cycliques, soit capable de lisser les fluctuations.

8.1 Le periodogramme

Nous supposons dans cette partie que Xt est un processus stationnaire au second-ordre demoyenne µ et de fonction de covariance γ(h) , E (Xt+h − µ)(Xt − µ) absolument sommable :∑|γ(h)| <∞. Sous ces hypotheses, le processus Xt admet une densite spectrale donnee par :

fX(λ) =1

∞∑h=−∞

γ(h)e−ihλ

114

Page 116: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04−0.03

−0.02

−0.01

0

0.01

0.02

0.03

seconde

Figure 8.1 – Signal d’harmonica echantillonne a 11.025 kHz (temps en se-conde).

0 10 20 30 40−1

−0.5

0

0.5

1

0 1000 2000 3000 4000 5000−60

−50

−40

−30

−20

−10

0

10

20

Hz

Figure 8.2 – A gauche, suite des 40 premiers coefficients de correlation dusignal represente figure 8.1. A droite, transformee de Fourier (en dB) de cesignal (frequence en Hz).

115

Page 117: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Pour estimer la densite spectrale de Xt, il est naturel de s’interesser au periodogramme, definicomme le module au carre de la transformee de Fourier discrete des observations X1, X2, · · · , Xn :

IXn (λk) = |dXn (λk)|2 ou dXn (λk) =1√2πn

n∑t=1

Xte−itλk (8.1)

ou λk = 2πk/n sont les frequences de Fourier. Remarquons ici que la relation :

n−1∑t=0

e−itλk = 0 pour λk = 2πk/n et k ∈ 1, . . . , (n− 1)

montre que le periodogramme aux frequences de Fourier λk, non nulles modulo 2π, est invariantpar ajout d’une constante. Le periodogramme a ete introduit par Sir Arthur Schuster (1898) pouretudier les “periodes cachees” apparaissant dans la serie de taches solaires. L’analyse spectrale desseries temporelles s’est ensuite considerablement developpee avec l’apparition de moyens de calculsperformants, et la decouverte d’algorithmes de transformee de Fourier rapides (voir Brillinger, 1981).

Malheureusement nous allons voir dans la suite que le periodogramme n’est pas un “bon” estima-teur de la densite spectrale, dans le sens ou cet estimateur n’est pas consistant (il ne converge pasvers la vraie densite quand n tend vers l’infini). Neanmoins, il est a la base de la construction de laplupart des estimateurs de densite spectrale.

Rappelons tout d’abord que, comme nous l’avons deja note dans le chapitre 7 (voir expression(7.7)), le periodogramme est aussi egal a la transformee de Fourier discrete de la suite des coefficientsd’autocovariance empiriques. En effet partant de :

γ(h) = n−1

n−|h|∑t=1

(Xt − µn)(Xt+|h| − µn) ou µn = n−1n∑t=1

Xt

on verifie aisement que

IXn (0) =1

2πn|µn|2 (8.2)

IXn (λk) =1

n−1∑h=−(n−1)

γ(h) exp(−ihλk) pour λk 6= 0 (8.3)

Pour estimer la densite spectrale fX(λ) a toutes les frequences, il est pratique d’etendre leperiodogramme pour les valeurs de frequences normalisees ne coıncidant pas avec les frequences deFourier. Ceci peut etre fait de differentes manieres ; nous suivrons l’extension adoptee par Fuller (1976)qui consiste a definir le periodogramme comme la fonction constante par morceaux donnee par :

IXn (λ) =

IXn (λk) si λk − π/n < λ ≤ λk + π/n et 0 ≤ λ ≤ π

IXn (−λ) si −π ≤ λ < 0(8.4)

Par construction, cette definition garantit que le periodogramme est une fonction paire, qui coıncideavec l’equation (8.1) aux frequences λk = 2πk/n. De facon plus concise on peut alors ecrire que :

IXn (λ) = IXn (g(n, λ))

116

Page 118: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou g(n, λ) designe, pour λ ∈ [0, π], le multiple de 2π/n le plus proche de λ et, pour λ ∈ [−π, 0),g(n, λ) = g(n,−λ). La proposition suivante etablit que le periodogramme est asymptotiquement sansbiais.

Theoreme 8.1.1Soit Xt un processus stationnaire de moyenne µ et de fonction d’autocovariance γ(h) absolumentsommable. Alors quand n→ +∞ on a :

EIXn (0)

− 1

2πnµ2 −→ fX(0)

et EIXn (λ)

−→ fX(λ) pour λ 6= 0

Demonstration Remarquons que, pour λ 6= 0, on a :

EIXn (g(n, λ))

=

1

(n−1)∑h=−(n+1)

(1− |h|

n

)γ(τ)e−ihg(n,λ)

Posons γn(h, λ) = (2π)−1I[−n,n](h)(1 − |h|/n)γ(h)e−ihg(n,λ). Nous avons |γn(h, λ)| ≤ |γ(h)| et

limn→∞ γn(h, x) = γ(h)e−ihλ. On conclut en appliquant le theoreme de convergence dominee.

Pour comprendre les proprietes statistiques du periodogramme, nous allons tout d’abord nousinteresser a la distribution statistique du periodogramme d’un bruit blanc fort, c’est-a-dire d’une suitede variables aleatoires independantes et identiquement distribuees, de moyenne nulle et de variancefinie.

Theoreme 8.1.2Soit Zt une suite de variables aleatoires i.i.d., de moyenne nulle et de variance σ2 <∞. Sa distri-bution spectrale a pour densite fZ(λ) = σ2/2π.

1. Soient 0 < ω1 < . . . < ωm < π, m frequences fixes. Le vecteur aleatoire [IZn (ω1), · · · , IZn (ωm)]converge en loi vers un vecteur de variables aleatoires independantes, distribuees suivant une loiexponentielle, de moyenne σ2/2π.

2. Supposons que EZ4t

<∞, alors :

varIZn (λk) =

2f2Z(λk) + κ4/4π

2n λk ∈ 0, π

f2Z(λk) + κ4/4π

2n 0 < λk < π(8.5)

et covIZn (λj), IZn (λk) = κ4/4π

2n pour λj 6= λk (8.6)

ou λk = 2πk/n sont les frequences de Fourier et ou κ4 est le cumulant d’ordre 4 de la variableZ1 defini par :

κ4 = EZ4

1

− 3(E

Z2

1

)2

3. Supposons que les variables aleatoires Zt soient gaussiennes. Alors κ4 = 0 et, pour tout n, lesvariables aleatoires IZn (λk)/fZ(λ), k ∈ 1, · · · , (n − 1)/2 sont independantes et identiquementdistribuees suivant une loi exponentielle 1 de moyenne 1.

1. Cette loi a pour densite p(u) = e−uI(u ≥ 0).

117

Page 119: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Elle est donnee en fin de chapitre.

La relation (8.5) du theoreme 8.1.2 montre que la variance de l’estimateur du periodogramme ne tendpas vers 0 lorsque le nombre d’echantillons tend vers l’infini. Le periodogramme est bien un estimateurasymptotiquement sans biais de la densite spectrale du bruit blanc, mais n’est pas consistant. Onvoit meme que

√var(IZn (λk)) est de l’ordre de σ2 et donc les fluctuations autour de la vraie valeur

sont de l’ordre de grandeur de ce que l’on cherche a estimer. C’est ce que montre la figure 8.3 ounous avons represente le periodogramme en dB d’un bruit blanc pour differentes valeurs de n. Onobserve sur ces realisations qu’a certaines frequences de Fourier les ecarts avec la vraie valeur σ2/2πrestent tres importants meme lorsque n augmente. Nous avons aussi reporte (droite en pointille) leseuil de confiance a α = 90% de la loi asymptotique de In(λk)/fZ(λk). Ce seuil a pour expressions = − log(1−α). Partant du theoreme 8.1.2, valable pour les processus i.i.d., nous allons voir qu’il est

0 −30

−20

−10

0n = 64

π 0 −30

−20

−10

0n = 128

π

0 −30

−20

−10

0n = 256

π 0 −30

−20

−10

0n = 512

π

Figure 8.3 – Periodogramme en dB d’un bruit blanc de variance 1 en fonctionde la frequence λ ∈ (0, π), pour differentes valeurs de n. La droite en trait pleinrepresente la densite spectrale theorique σ2/2π et la droite en pointille le seuilde confiance a 90%.

encore possible d’etendre ce theoreme a la classe plus large des processus lineaires forts centres dontnous rappelons la definition.

Definition 8.1.3 (Processus lineaire fort)Le processus Xt est lineaire fort, s’il existe un bruit blanc fort Zt ∼ IID(0, σ2) et une suite decoefficients ψkk∈Z absolument sommable telle que :

Xt =

∞∑k=−∞

ψkZt−k (8.7)

118

Page 120: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

On rappelle que Xt est stationnaire au second ordre, que E Xt = 0 et que sa densite spectrale estdonnee par :

fX(λ) =σ2

2π|ψ(e−iλ)|2 (8.8)

Le theoreme 8.1.4 montre qu’il existe une relation analogue a (8.8) entre le periodogramme IXn (λ) duprocessus Xt et le periodogramme IZn (λ) du bruit blanc fort Zt qui definit Xt.

Theoreme 8.1.4Soit Xt un processus lineaire fort. Supposons que

∑∞j=−∞ |ψj ||j|1/2 <∞ et que E

Z4t

<∞. On a

alors :IXn (λk) = |ψ(e−iλk)|2IZn (λk) +Rn(λk)

ou le terme Rn(λk) verifie 2 :

maxk∈1,··· ,b(n−1)/2c

E|Rn(λk)|2

= O(n−1)

Demonstration Elle est donnee en fin de chapitre.

On comprend alors qu’en utilisant l’“approximation” donnee par le theoreme 8.1.4 on puisse etendrele theoreme 8.1.2 aux processus lineaires forts.

Theoreme 8.1.5Soit Xt un processus lineaire defini par :

Xt =∞∑

k=−∞ψkZt−k

ou Zt est un bruit blanc fort IID(0, σ2) verifiant EZ4t

<∞. On suppose que

∑k |k|1/2|ψk| <∞

et que ψ(e−iλ) =∑

k ψke−ikλ 6= 0. On note :

fX(λ) =σ2

∣∣∣ψ(e−iλ)∣∣∣2

1. Soient 0 < ω1 < · · · < ωm < π, m frequences fixes. Le vecteur aleatoire[IXn (ω1)/fX(ω1), · · · , IXn (ωm)/fX(ωm)] converge en loi vers un vecteur de variables aleatoiresindependantes, distribuees suivant une loi exponentielle, de moyenne 1.

2. On a :

var(IXn (λk)) =

2f2X(λk) +O(n−1/2) λk ∈ 0, π

f2X(λk) +O(n−1/2) 0 < λk < π

cov(IXn (λj), IXn (λk)) = O(n−1) λj 6= λk

Demonstration La preuve est une consequence directe des theoremes 8.1.4 et 8.1.2.

2. Notation : O(n−α) designe une suite dependant de n qui verifie, quand n→∞, O(n−α)/n−α → c 6= 0 et o(n−α)verifie o(n−α)/n−α → 0.

119

Page 121: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En consequence, comme pour le bruit blanc fort, la variance du periodogramme d’un processus lineairefort est, a une frequence de Fourier, de l’ordre de grandeur du carre de la densite spectrale a cettefrequence. La figure 8.4 illustre ce resultat : elle montre le periodogramme, evalue sur 1024 echantillons,d’un processus AR(2) gaussien. L’ecart-type du periodogramme est proportionnelle a la densite spec-trale, ce qui rend bien entendu l’interpretation du periodogramme difficile. Le theoreme 8.1.5 implique

0 0

5

10

15

20

25

30

35

40

45

50

n = 1024

π

Figure 8.4 – Periodogramme pour un AR(2) de parametres [1,−1, 0.9] etσ2 = 1 calcule sur n = 1024 echantillons, en fonction de la frequence λ ∈ (0, π).

qu’asymptotiquement les variables aleatoires [In(λ1), . . . , In(λN/2)] se comportent comme un tableaude variables independantes distribuees marginalement comme WfX(λk) ou W suit une loi exponen-tielle. Il s’agit donc d’une structure de bruit de type multiplicatif, ou le parametre d’interet, a savoir ladensite spectrale, est multipliee par le “bruit” W . L’application d’une transformation logarithmiqueconduit naturellement a une structure de bruit additif : asymptotiquement le log-periodogrammeest egal a la log-densite spectrale observee dans un bruit approximativement additif et de varianceconstante. Figure 8.4, nous avons represente le spectre evalue en dB ainsi que l’intervalle de confiancea α = 90% de la loi asymptotique de IXn (λk)/fX(λk) soit :

limn→∞

PIXn (λk)/fX(λk) > c

= 1− e−c = α

qui donne c = − log(1− α).

8.2 Estimateur a noyau

Nous presentons ici une technique permettant de construire un estimateur non parametrique dela densite spectrale, l’estimateur a noyau. Cette approche, qui effectue un lissage du periodogrammeen frequence, exploite les proprietes du periodogramme que nous avons mises en evidence dans le

120

Page 122: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

0 −30

−25

−20

−15

−10

−5

0

5

10

15

20

n = 1024

π

Figure 8.5 – Periodogramme en dB pour un AR(2) de parametres [1,−1, 0.9]et σ2 = 1 calcule sur n = 1024 echantillons, en fonction de la frequence λ ∈(0, π). La courbe en pointille donne le seuil de confiance a 90%.

paragraphe precedent. Nous supposons dans toute cette partie que Xt est un processus lineaire fort,satisfaisant les conditions d’applications du theoreme 8.1.5.

D’apres le theoreme 8.1.5, a la limite des grands echantillons, les coordonnees du periodogrammeaux frequences de Fourier λk = 2πk/n sont des variables decorrelees d’ecart type σ2|ψ(e−iλk)|2/(2π).La fonction λ→ |ψ(e−iλ)|2 est continue, elle varie donc “peu” sur de “petits” intervalles de frequence.Ceci suggere de construire un estimateur de la densite spectrale a la frequence λ en moyennant lescoordonnees du periodogramme aux frequences de Fourier dans un “voisinage” de la frequence λ.

Nous appelons un noyau une fonction W : R→ R+ satisfaisant les proprietes suivantes :– W (u) = 0 pour |u| > 1, i.e. le noyau a un support compact–∫ 1−1W (u)du = 1 et

∫ 1−1 uW (u)du = 0,

– W est deux fois continument differentiables et W ′(−1) = limu→−1+ W′(u) = 0 et W ′(1) =

limu→1−W′(u) = 0.

Soit bnn≥0 une suite decroissante au sens large de reels positifs, satisfaisant

limn→∞

bn = 0 . (8.9)

Nous considerons l’estimateur a noyau de la densite spectrale, defini par

fXn (λ) =2π

nbn

n∑k=1

W[b−1n (λ− λk)

]IXn (λk) , (8.10)

ou plus generalement

fXn (λ) =2π

n

n∑k=1

Wm,n(k)IXn (λk) . (8.11)

121

Page 123: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Dans ce dernier cas, nous prefererons les conditions (proches de celles decrites ci-dessus pour W ) :

(i) pour tout k,Wm,n(k) = Wm,n(−k) et Wm,n(k) ≥ 0(ii)

∑|k|≤mWm,n(k) = 1

(iii)∑|k|≤mW

2m,n(k)→ 0 quand n→∞

(8.12)

Le parametre bn est appele largeur de bande, i.e. en modifiant bn nous agissons sur la ”largeur” dunoyau b−1

n W (b−1n ·). Nous allons, de facon informelle, caracteriser la facon dont le parametre bn influe

sur la qualite de l’estimateur et essayer de deduire de ce comportement heuristique, des procedurespermettant de choisir de maniere automatique ce parametre. Nous allons tout d’abord etudier le biais

de cet estimateur, a savoir la difference entre la moyenne de l’estimateur EfXn (λ)

et fX(λ), a une

frequence λ 6= 0, π (mod) 2π (pour traiter ces valeurs limites, il conviendrait d’utiliser d’autres noyaux).En utilisant le theoreme 8.1.4, nous savons que E

IXn (λk)

= fX(λk) +O(n−1). Par consequent

EfXn (λ)

=

nbn

n∑k=1

W[b−1n (λ− λk)

]f(λk) +O(n−1) ,

=1

bn

∫ 2π

0W [b−1

n (λ− µ)]f(µ)dµ+O(n−1) ,

=

∫ b−1n λ

−b−1n (2π−λ)

W (ν)f(λ+ bnν)dν → fX(λ) .

Ceci montre que limn→∞ EfXn (λ)

= f(λ), i.e. fn,b(λ) est un estimateur asymptotiquement sans

biais de la densite spectrale f(λ). Pour comprendre de facon plus precise la facon dont le biais dependde la largeur de bande bn, nous supposons dans la suite que la densite spectrale fX est deux foiscontinument differentiable. Nous avons donc, pour tout λ ∈ [−π, π] et ν ∈ [−1,+1],

fX(λ+ bnν) = fX(λ) + bnf′X(λ)ν +

1

2b2nf′′X(λ)ν2 + o(b2n)

ou le terme o(b2n) est uniforme en λ et en ν. En utilisant le fait que, pour∫ +1−1 νW (ν)dν = 0, nous

aurons donc, pour tout n tel que −b−1n (2π − λ) < −1 et b−1

n λ > 0,

EfXn (λ)

= fX(λ) +

1

2b2nf′′X(λ)

∫ 1

−1ν2W (ν)dν + o(b2n), (8.13)

ce qui montre que le biais de l’estimateur fXn (λ) est une fonction qui croıt comme le carre de la largeurde bande bn et qui est proportionnelle a la derivee seconde de la densite spectrale en λ. Notons quecomme nous avons suppose que le noyau a exactement un moment nul,

∫ 1−1 νW (ν)dν = 0, le biais ne

depend pas de la derivee de la densite spectrale f ′(λ) en λ. Il est facile de voir qu’il est possible dereduire le terme de biais en considerant des noyaux d’ordre superieur.

Pour comprendre les performances de cet estimateur de la densite spectrale, nous allons evaluerson biais et sa variance. Pour simplifier l’analyse, nous supposerons dans la suite que la fonction

122

Page 124: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

λ → |ψ(e−iλ)|2 est trois fois differentiable sur [−π, π] et que la derivee troisieme est bornee. Enutilisant les resultats du theoreme 8.1.4 nous avons :

EfXn (λ)

=∑|k|≤m

Wm,n(k)fX (g(n, λ) + 2πk/n) +O(n−1) (8.14)

ou fX(λ) = (2π)−1σ2|ψ(e−iλ)|2 est la densite spectrale du processus Xt. Comme la fonction fX estdeux fois continument differentiables, nous avons, pour |k| ≤ m,

fX(g(n, λ) + 2πk/n) = fX(g(n, λ)) + f ′X(g(n, λ)(2πk/n) + (1/2)f ′′X(g(n, λ)(2πk/n)2 +Rk,m,n

ou Rk,m,n ≤ cmax |f ′′′X (λ)|(m/n)3 pour |k| ≤ m. Comme la fenetre de ponderation est symetrique,nous avons

∑|k|≤mWm,n(k)k = 0, ce qui implique en utilisant (8.12)(ii) :∑|k|≤m

Wm,n(k)fX (g(n, λ) + 2πk/n) = fX(g(n, λ)) + (1/2)f ′′X(g(n, λ))Wm,n +Rm,n

ou Wm,n =4π2

n2

∑|k|≤m

k2Wm,n(k)

et ou |Rm,n| ≤ cmax |f ′′′X (λ)|(m/n)3. En prenant par exemple la fenetre de ponderation rectangulaire,nous avons Wm,n ∝ m2/n2 ce qui montre que le biais de l’estimateur varie comme le carre du nombrede points de frequence pris en compte dans le calcul de la moyenne ponderee. Le calcul de la variancede cet estimateur s’ecrit :

E(

fXn (λ)− EfX,n(λ)

)2

= Wm,nf2X(g(n, λ)) +Qm,n

ou Wm,n =1

4π2

∑|k|≤m

W 2m,n(k)

et ou |Qm,n| ≤ cmax[|f ′X(λ)|]∑|k|≤mW

2m,n(k)(m/n). On voit ici que la troisieme des conditions (8.12)

assure que la variance tend vers 0 quand n tend vers l’infini. En s’appuyant encore sur l’exemplede la fenetre rectangulaire, nous avons Wm,n ∝ 1/m ce qui montre que la variance de l’estimateurest inversement proportionnelle au nombre de points pris en compte dans le calcul de la moyennelocale. En conclusion dans le cas d’une fenetre rectangulaire, le parametre m (qui determine le nombrede coordonnees de periodogramme moyennees) a un effet nefaste pour le biais et benefique pour lavariance de l’estimateur. Le risque quadratique de l’estimateur (qui prend en compte ces deux effets)a pour expression :

E(

fX,n(λ)− fX(λ))2≈ (1/4)

(f ′′X(g(n, λ)Wm,n

)2+ Wm,nf

2X,m(g(n, λ))

Il est naturel de choisir le parametre m de facon a minimiser l’erreur quadratique moyenne. Dans lecas ou Wm,n(k) = 1/(2m + 1), cette optimisation peut etre effectuee de facon explicite. Une autrefenetre couramment utilisee est la fenetre triangulaire definie par :

Wm,n(k) =

1m

(1− |k|m

)pour |k| ≤ m

0 sinon

123

Page 125: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Elle verifie les conditions (8.12) et presente l’avantage d’assurer au spectre estime d’etre positif. Lesresultats obtenus avec la fenetre rectangulaire ont un caractere general : l’utilisation de fenetre deponderation permet d’obtenir un risque qui tend vers 0 quand n tend vers l’infini. Ce resultat s’ac-compagne en general d’un biais asymptotiquement non nul. En regle generale, la valeur de m, quidetermine la largeur de la fenetre, doit tendre vers l’infini, quand n→ +∞, mais suffisamment lente-ment pour que le rapport n/m tende aussi vers l’infini. Il faut donc ajouter aux conditions (8.12) lacondition suivante :

m(n)→∞ et m(n)/n→ 0 quand n→∞

Typiquement on aura m(n) = nα avec 0 < α < 1.

8.3 Preuves des theoremes 8.1.2, 8.1.4

Demonstration (Preuve du theoreme 8.1.2) (i). Notons :αZn (λk) = (1/2πn)−1/2

∑nt=1 Zt cos(λkt)

βZn (λk) = (1/2πn)−1/2∑n

t=1 Zt sin(λkt)(8.15)

les parties reelles et imaginaire de la transformee de Fourier discrete de Zt aux points defrequences λk = 2πk/n. Pour une frequence arbitraire λ, nous avons :

IZn (λ) =1

2

(αZn (g(n, λ))2 + βZn (g(n, λ))2

)Rappelons que si une suite de vecteurs aleatoires Yn converge en loi vers une variable aleatoireY et que φ est une fonction continue, alors φ(Yn) converge en loi vers φ(Y ). Il suffit donc demontrer que le vecteur aleatoire :

(αZn (λ1), βZn (λ1), · · · , αZn (λm), βZn (λm)) (8.16)

converge en loi vers une distribution normale de moyenne nulle et de matrice de covarianceasymptotique (σ2/4π)I2m, ou I2m est la matrice identite (2m × 2m). Nous allons tout d’abordnous interesser au cas m = 1. La preuve decoule alors du theoreme suivant :

Theoreme 8.3.1 (Lindeberg)Soit Un,t, ou t = 1, . . . , n et n = 1, 2, . . . , une suite triangulaire de variables aleatoires centreesde variance finies. Pour tout n, les variables Un,1, . . . , Un,n sont independantes. On pose Yn =∑n

t=1 Un,t et w2n =

∑nt=1 var(Un,t). Alors si pour tout ε > 0 :

limn→∞

n∑t=1

1

w2n

EU2n,tI(|Un,t| ≥ εwn)

= 0

on a :Yn/wn →d N (0, 1)

124

Page 126: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Soit u et v deux reels quelconques fixes et λ ∈ (0, π). Considerons la variable Yn = uαZn (g(n, λ))+vβZn (g(n, λ)) que nous pouvons encore ecrire :

Yn =n∑t=1

Un,t ou Un,t =1√2πn

(u cos(g(n, λ)t) + v sin(g(n, λ)t))Zt

Notons que, pour n fixe les variables aleatoires Un,t sont independantes. D’autre part, pourtout λ 6= 0, on verifie aisement que :

n∑t=1

cos2(g(n, λ)t) =n∑t=1

sin2(g(n, λ)t) =n

2et

n∑t=1

cos((g(n, λ)t) sin(g(n, λ)t) = 0

Par suite, on peut ecrire que :

w2n =

n∑t=1

var(Un,t)

=1

2πn

n∑t=1

(u2 cos2(g(n, λ)t) + v2 sin2(g(n, λ)t) + 2uv cos((g(n, λ)t) sin(g(n, λ)t)))

=1

4π(u2 + v2) = w2

1

Par suite, en posant c0 = (|u|+ |v|)/2πw1 et ε′ = ε√

2πw1/(|u|+ |v|), on a :

n∑t=1

1

w2n

EU2n,tI(|Un,t| ≥ εwn)

≤ c0

n

n∑t=1

EZ2t I(|Zt| ≥ ε′

√n)

= c0EZ2

1I(|Z1| ≥ ε′√n)

Le dernier terme tend vers 0 puisque on a EZ2

1I(|Z1| ≥ ε′√n)≤ E

|Z1|3

/ε′√n et que

E|Z1|3

<∞ puisque E

|Z1|4

<∞. La preuve s’etend aisement a un ensemble de frequences

λ1, . . . , λm en utilisant la methode de Cramer-Wold (see Proposition 6.3.4)

(ii). Par definition de IZn (λk), nous avons au premier ordre :

EIZn (λk)

= (2πn)−1

n∑s,t=1

E ZsZt eiλk(t−s) = (2π)−1σ2 (8.17)

Au second ordre nous avons :

EIZn (λj)I

Zn (λk)

= (2πn)−2

n∑s,t,u,v=1

E ZsZtZuZv ei(λj(t−s)+λk(v−u)) (8.18)

En utilisant que les variables aleatoires Zt sont independantes, centrees, de meme variance σ2 etde moment d’ordre 4 fini et en posant E

Z4

1

= κ4 + 3σ4, on obtient :

E ZsZtZuZv = κ4δs,t,u,v + σ4(δs,tδu,v + δs,uδt,v + δs,vδt,u) (8.19)

125

Page 127: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En portant cette expression dans (8.18), nous avons :

EIZn (λj)I

Zn (λk)

= (2π)−2n−1κ4 + (2π)−2n−2σ4

n2 +

∣∣∣∣∣n∑t=1

ei(λj+λk)t

∣∣∣∣∣2

+

∣∣∣∣∣n∑t=1

ei(λk−λj)t

∣∣∣∣∣2

et donc :

cov(IZn (λj), IZn (λk)) = E

IZn (λj)I

Zn (λk)

− E

IZn (λj)

EIZn (λk)

= (2π)−2n−1κ4 + (2π)−2n−2σ4

∣∣∣∣∣n∑t=1

ei(λj+λk)t

∣∣∣∣∣2

+

∣∣∣∣∣n∑t=1

ei(λk−λj)t

∣∣∣∣∣2

ce qui permet de conclure.

(iii). Lorsque Zt est une variable gaussienne centree, le vecteur :

Qn =[αZn (λ1) βZn (λ1) · · · αZn (λn) βZn (λn)

]est gaussien comme transformee lineaire d’un vecteur gaussien. Il suffit donc de calculer levecteur-moyenne et sa matrice de covariance. Il est facile de verifier que le vecteur-moyenneest nul et que, pour 0 < λk 6= λj < π, nous avons :

E

(αZn (λk))2

= E

(βZn (λk))2

= (4π)−1

EαZn (λk)β

Zn (λk)

= 0

EαZn (λk)α

Zn (λj)

= E

βZn (λk)β

Zn (λj)

= 0

EαZn (λk)β

Zn (λj)

= 0

La matrice de covariance est donc σ2In/4π ou In est la matrice identite de taille n. Par consequentles composantes de Qn sont independantes. Rappelons que :

IZn (λk) = (αZn (λk))2 + (βZn (λk))

2

De l’independance des composantes deQn, on deduit que les variables aleatoires IZn (λk) sont elles-meme independantes et que 4πIZn (λk)/σ

2 est la somme du carre de deux variables gaussiennescentrees, independantes, de meme variance 1, dont la distribution de probabilite est la loi ditedu χ2 a deux degres de liberte. Ce qui conclut la preuve.

Demonstration (Preuve du theoreme 8.1.4) Notons respectivement dXn (λk) et dZn (λk) lestransformees de Fourier discretes des suites X1, · · · , Xn et de Z1, · · · , Zn au point de frequence

126

Page 128: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

2πk/n avec k ∈ 1, . . . , b(n− 1)/2c. Nous pouvons ecrire successivement :

dXn (λk) = (2πn)−1/2n∑t=1

Xte−iλkt

= (2πn)−1/2∞∑

j=−∞ψje−iλkj

(n∑t=1

Zt−je−iλk(t−j)

)

= (2πn)−1/2∞∑

j=−∞ψje−iλkj

n−j∑t=1−j

Zte−iλkt

= (2πn)−1/2

∞∑j=−∞

ψje−iλkj

(n∑t=1

Zte−iλkt + Un,j(λk)

)= ψ(e−iλk)dZn (λk) + Yn(λk)

ou nous avons pose :

Un,j(λk) =

n−j∑t=1−j

Zte−iλkt −

n∑t=1

Zte−iλkt (8.20)

et Yn(λk) = (2πn)−1/2∞∑

j=−∞ψje−iλkjUn,j(λk) (8.21)

On remarque que, pour |j| < n, Un,j(λk) est une somme de 2|j| variables independantes centrees devariance σ2 tandis que, pour |j| ≥ n, Un,j(λk) est la somme de 2n variables centrees independantes devariance σ2. Par consequent, partant de (8.20), on a :

E|Un,j(λk)|2

≤ 2σ2 min(|j|, n) (8.22)

ainsi que :E|Un,j(λk)|4

≤ CRσ4(min(|j|, n))2 (8.23)

ou CR < ∞ est une constante. Pour montrer (8.23), il suffit de poser EZ4t

= ησ4 et d’utiliser

l’inegalite (8.24) pour p = 4.

Proposition 8.3.2 (Inegalite de Rosenthal (Petrov, 1985))Soient (X1, . . . , Xn) des variables independantes (mais pas necessairement identiquement distribuees)et soit p ≥ 2. Alors il existe une constante universelle C(p) <∞ telle que :

E

∣∣∣∣∣n∑k=1

Xk

∣∣∣∣∣p≤ C(p)

( n∑k=1

EX2k

)p/2+

n∑k=1

E |Xk|p

(8.24)

Utilisons a present (8.23) pour majorer E|Yn(λk)|4

. En adoptant la notation ‖X‖p = (E |X|p)1/p

(pour p > 0) on a, d’apres l’inegalite triangulaire (inegalite de Minkovski) ‖X+Y ‖p ≤ ‖X‖p+‖Y ‖p :

supk∈1,··· ,b(n−1)/2c

‖Yn(λk)‖4 ≤ supk∈1,··· ,b(n−1)/2c

(2πn)−1/2∞∑

j=−∞|ψj |‖Un,j(λk)‖4

127

Page 129: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

D’apres (8.23), ‖Un,j(λk)‖4 ≤ cσmin(|j|, n)1/2. Par consequent :

supk∈1,··· ,b(n−1)/2c

‖Yn(λk)‖4 ≤ cσ(2πn)−1/2∞∑

j=−∞|ψj |min(|j|, n)1/2

Maintenant on peut ecrire :

∞∑j=−∞

|ψj |min(|j|, n)1/2 ≤∞∑

j=−∞|ψj ||j|1/2

Par consequent ‖Yn(λk)‖4 est d’un ordre egal a O(n−1/2).Nous pouvons a present exprimer Rn(λk) = IXn (λk) − |ψ(e−iλk)|2IZn (λk) en fonction de Yn(λk) =

dXn (λk)− ψ(e−iλk)dZn (λk). Il vient :

Rn(λk) = |ψ(e−iλk)dZn (λk) + Yn(λk)|2 − |ψ(e−iλk)|2IZn (λk)

= ψ(e−iλk)dZn (λk)Yn(−λk) + ψ(eiλk)dZn (−λk)Yn(λk) + |Yn(λk)|2

D’apres l’inegalite de Holder, ‖XY ‖r ≤ ‖X‖p‖Y ‖q si p−1 + q−1 = r−1. En faisant p = q = 4 et r = 2,il vient :

(E|Rn(λk)|2

)1/2 = ‖Rn(λk)‖2 ≤ 2

∑j

|ψj |‖dZn (λk)‖4‖Yn(λk)‖4 + ‖Yn(λk)‖4

D’apres le theoreme 8.1.2, ‖dZn (λk)‖4 est de l’ordre de σ/√

2π. Par consequent ‖Rn(λk)‖2 est de l’ordrede n−1/2 et E

|Rn(λk)|2

= ‖Rn(λk)‖22 de l’ordre de 1/n. Ce qui conclut la preuve.

128

Page 130: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 9

Estimation des modeles ARMA (p, q) :methodes elementaires

Considerons un processus ARMA(p, q)

Xt −p∑j=1

φjXt−j = Zt +

q∑j=1

θjZt−j ,

ou Zt ∼ BB(0, σ2). Dans les chapitres precedents, nous avons supposes que les parametres(φ1, . . . , φp, θ1, . . . , θq, σ

2) etaient connus et nous avons montre comment nous pouvions, a partir deces parametres, calculer la fonction d’autocovariance, la densite spectrale, et des predicteurs. Dansce chapitre, nous presentons des methodes permettant d’estimer les parametres de ces modeles. Dansce chapitre, nous nous concentrerons sur les methodes elementaires, qui permettent d’obtenir les va-leurs des parametres sans avoir recours a des methodes d’optmisation non-lineaires. Dans le chapitresuivant, nous etudierons plus specifiquement les methodes de maximum de vraisemblance.

9.1 Estimation AR : methode de Yule-Walker

Nous avons etabli, chapitre 1, une relation simple (equations (4.21) de Yule-Walker) entre les (p+1)coefficients du modele et les (p+1) premiers coefficients d’autocovariance d’un processus AR(p) causaldefini par l’equation recurrente :

Xt = φ1Xt−1 + · · ·+ φpXt−p + Zt

En posant φ =[φ1 . . . φ1

]T, γp =

[γ(1) . . . γ(p)

]Tet :

Γp =

γ(0) γ(1) · · · γ(p)γ(1) γ(0) · · · γ(p− 1)

.... . .

γ(p) γ(p− 1) · · · γ(0)

129

Page 131: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

les equations de Yule-Walker ont pour expression matricielle :

Γpφ = γp (9.1)

σ2 = γ(0)− φTγp

En substituant, dans ces relations, les covariances γ(h) par les covariances empiriques γ(h), on obtientun systeme lineaire qui fournit les estimateurs φn et σ2

n comme solution de :

Γpφn = γp (9.2)

σ2n = γ(0)− φTn γp (9.3)

On a vu paragraphe 7.2 que, si γ(0) > 0, alors Γp est de rang plein. En divisant alors les deux membres

de Γpφn = γp par γ(0) et en introduisant l’autocorrelation empirique ρ(h) = γ(h)/γ(0), on aboutitaux deux equations :

φn = C−1p ρp (9.4)

σ2n = γ(0)(1− ρTp C−1

p ρp) (9.5)

ou ρp =[ρ(1) . . . ρ(p)

]Tet :

Cp =

ρ(0) ρ(1) · · · ρ(p)ρ(1) ρ(0) · · · ρ(p− 1)

.... . .

ρ(p) ρ(p− 1) · · · ρ(0)

Le fait que la matrice Rp (comme la matrice Cp) soit, par construction, de Toeplitz et de type defini

positif (voir theoreme 5.1.3 chapitre 5) implique que les coefficients estimes φp sont tels que le polynome

φ(z) = 1 −∑p

k=1 φkzk a toutes ses racines strictement a l’exterieur du cercle unite : cette facon de

proceder aboutit donc necessairement a un processus AR(p) causal. Ses (p+1) premiers coefficients decovariance coıncident alors avec les coefficients de covariance empiriques. La methode qui consiste pourestimer des parametres a substituer, dans une relation telle que (9.1), les moments par des estimateursconsistants, porte le nom de methode des moments. En regle generale, elle conduit a des estimateursdes parametres qui sont moins efficaces que ceux obtenus par la methode des moindres carres ouencore par la methode du maximum de vraisemblance. Cependant, dans le cas d’un modele AR(p)gaussien, on montre que les estimateurs φ et σ2, donnes par (9.2) et (9.3), ont le meme comportementasymptotique, quand n tend vers l’infini, que ceux du maximum de vraisemblance. Nous avons vu,chapitre 5 exemple 5.5, que les coefficients de l’equation recurrente d’un AR(p) causal sont directementrelies aux coefficients du meilleur predicteur lineaire donnant Xt a partir de ses valeurs passees : plusprecisement, pour tout m ≥ p, la suite des m coefficients de prediction φm = φ1,m, . . . , φm,m coıncideavec φ1, . . . , φp, 0, . . . , 0. Par consequent, pour un AR(p) causal, l’algorithme de Levinson-Durbinfournit une resolution rapide des equations de Yule-Walker.

130

Page 132: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Theoreme 9.1.1Soit Xt un processus AR(p) causal ou Zt ∼ IID(0, σ2) et soit un echantillon X1, . . . , Xn de taille n.

On note φn = C−1p ρp et σ2

n = γ(0)(1− ρTp C−1p ρp). Alors, quand n→∞, on a :

σ2n →P σ

2

√n(φn − φ)→d N (0, σ2Γ−1

p )(9.6)

Ce theoreme permet de construire des intervalles de confiance et des tests d’hypothese.Dans la plupart des cas, l’ordre du modele autoregressif n’est pas connu. Il est donc important de

disposer de resultats asymptotiques pour des situations ou l’ordre du modele est different du modeleexact. Le theoreme suivant couvre le cas ou l’ordre du modele estime m est superieur a l’ordre dumodele exact.

Theoreme 9.1.2Soit Xt un processus AR(p) causal ou Zt ∼ IID(0, σ2) et soit un echantillon X1, . . . , Xn de taille n.

On note φn = C−1m ρm ou m > p. Alors, quand n→∞, on a :

√n(φn − φm)→d N (0, σ2Γ−1

m ) (9.7)

ou φm = φ1, . . . , φp, 0, . . . , 0 est la suite du meilleur predicteur lineaire de Xt en fonction deXt−1, . . . , Xt−m.

En particulier, le m-eme coefficient de correlation partielle kn(m) = φm,m verifie :

√n kn(m)→d N (0, 1) (9.8)

On en deduit le resultat pratique suivant : si un modele autoregressif est approprie pour une suited’observations, il doit y avoir une valeur m a partir de laquelle les valeurs observees de kn(m) sontcompatibles avec la distribution N (0, 1/n). En particulier si m est superieur a l’ordre du modele,kn(m) doit etre compris entre ±1.96/

√n avec une probabilite proche de 95%. Ce resultat suggere

d’utiliser comme estimateur de p la plus petite valeur r au dela de laquelle |kn(m)| < 1.96/√n pour

tout m > r. Cette valeur peut servir de valeur initiale a des algorithmes plus performants d’estimationde p.

9.1 Exemple (Suite des coefficients de reflexion d’un processus AR(2)):Le theoreme 9.1.2 montre que le coefficient de reflexion φm,m pour m > 1 se comporte comme une variablealeatoire gaussienne de moyenne nulle et de variance de l’ordre de 1/n. Nous avons represente figure 9.1les suites, obtenues au cours de 7 simulations, de φm,m en fonction de m pour un echantillon AR(2) delongueur n = 500. Les valeurs des parametres sont φ1 = 1.6, φ2 = −0.9 et σ2 = 1. Le calcul theoriquedonne φ1,1 = 0.8, φ2,2 = −0.9 et, pour m ≥ 2, φm,m = 0. Nous avons aussi represente l’intervalle deconfiance a 95% pour m ≥ 2.

9.2 Estimation MA : methode de Durbin

Il est plus difficile de construire des estimateurs preliminaires de processus MA que de processusAR. Il n’est en fait pas possible de faire apparaıtre une relation lineaire entre les parametres du modeleMA et les coefficients d’autocovariance.

131

Page 133: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

1 2 3 4 5 6 7 8 9 10−1

−0.5

0

0.5

1

m

Figure 9.1 – Suites, obtenues au cours de 7 simulations, des coefficients dereflexion en fonction de m, pour un echantillon de longueur n = 500 d’unprocessus AR(2) defini par φ1 = 1.6, φ2 = −0.9 et σ2 = 1.

L’Equation 4.7 donne la relation entre les coefficients d’autocovariance d’un modele MA et lesparametres du modele (cette relation est non lineaire). A titre d’exemple, considerons le cas d’unprocessus MA(1) defini par Xt = Zt + θZt−1, Zt ∼ BB(0, σ2). On suppose que |θ| ≤ 1 et donc quele modele MA est causal et inversible. La fonction d’autocorrelation est donnee par

ρ(h) =

θ/(1 + θ2) si h = ±1

0 si |h| ≥ 2

Supposons que nous disposions de n observations consecutives X1, . . . , Xn. La methode des momentsconsiste a substituer a ρ(1) la correlation empirique ρn(1) = γn(1)/γn(0) et a resoudre par rapport aθ. En supposant que |θ1| < 1, il vient :

θn =

−1 si ρn(1) < −1/2

(1− (1− 4ρ2n(1))1/2)/2ρn(1) si |ρn(1)| ≤ 1/2

+1 si ρ(1) > 1/2

Bien entendu, si |ρn(1)| est significativement plus grand que 1/2, il est douteux que le processus soit unMA(1). Comme γ(0) = σ2(1 + θ2), nous avons σ2 = γ(0)/(1 + θ2). Cette expression suggere d’estimerσ2 par σ2

n = γn(0)/(1+ θ2n,1). Le theoreme 7.3.6 montre que

√n(ρn(1)−ρ(1)) est asymptotique normal

de variance asymptotique

W = (1 + θ2)−4(1 + θ2 + 4θ4 + θ6 + θ8

).

En supposant que |ρ(1)| < 1/2, la delta-methode montre que l’estimateur√n(θn − θ

)est asympto-

tiquement normal, de variance γ2(θ)

γ2(θ) = (1− θ2)−2(1 + θ2 + 4θ4 + θ6 + θ8

).

132

Page 134: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Nous montrerons dans la suite que cet estimateur n’est pas asymptotiquement efficace. Le probleme estque l’estimateur precedent est construit uniquement a partir de la statistique ρn(1) et qu’il n’exploitedonc pas l’information statistique presente dans les autres coefficients de correlation.

La methode proposee par Durbin s’appuie sur le fait qu’un processus MA(q), defini par Xt = Zt +∑qk=1 θkZt−k, inversible est un modele AR(∞) et peut donc etre approche par un modele autoregressif

d’ordre suffisamment grand.Plus precisement supposons que θ(z) 6= 0 pour |z| ≤ 1. On a vu que ψ(z) = 1/θ(z) = 1−

∑∞k=1 ψkz

k

ou ψk est une suite de module sommable et que

Zt = Xt −∞∑k=1

ψkXt−k .

La relation ψ(z)θ(z) = (1−∑∞

m=1 ψmzm)(1 +

∑qk=1 θkz

k) = 1 implique que les coefficients du modeleMA(q) et de la representation AR(∞) verifient

ψ1 = −θ1 (9.9)

ψ2 = −θ2 − θ1ψ1

...

ψq = −θq − θ1ψq−1 − θ2ψq−2 − · · · − θq−1ψ1

ψj = −q∑

m=1

θmψj−m , j = q + 1, q + 2, . . . .

Comme les coefficients de la representation AR(∞) satisfont |ψj | ≤ Cρj avec 0 < ρ < 1, il est possibled’approcher le modele AR(∞) par un modele AR(p). Comme la fonction z 7→ θ(z) est continue, ilexiste M > 0 tel que, pour tout |z| ≤ 1, on a |θ(z)| ≤ M et donc |ψ(z)| ≥ 1/M = m > 0. Posonsψp(z) = 1−

∑pk=1 ψkz

k. Alors il existe p suffisamment grand tel que, pour tout |z| ≤ 1, |ψ(z)−ψp(z)| <m/2. On en deduit que m ≤ |ψ(z)| = |ψ(z)−ψp(z)+ψp(z)| ≤ |ψ(z)−ψp(z)|+ |ψp(z)| ≤ m/2+ |ψp(z)|qui implique que |ψp(z)| ≥ m/2 > 0. En conclusion, pour tout |z| ≤ 1, il existe p suffisammentgrand tel que |ψp(z)| > 0. On en deduit que le processus Xp

t , t ∈ Z defini par l’equation recurrenteXpt = Zt +

∑pk=1 ψkX

pt−k est un processus AR(p) causal. De plus Xt −Xp

t =∑∞

k=p+1 ψkXt−k et donc

E|Xt − Xt|2

≤ γ(0)

(∑∞k=p+1 |ψk|

)2qui tend vers 0 quand p tend vers l’infini. Cette approximation

est a la base de la methode de Durbin.Dans une premiere etape, nous estimons les p coefficients

ψn,1, . . . , ψn,p

de prediction lineaire,

obtenus comme solution des equations de Yule-Walker.Pour estimer les coefficients du modele MA, les relations (9.9) suggerent de minimiser l’erreur

133

Page 135: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

quadratique

(θ1, . . . , θq) 7→

∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥

−ψn,1−ψn,2

...

−ψn,p−1

0......0

+

1 0 · · · 0

−ψn,1 1. . .

......

. . .. . . 0

−ψn,p. . . 1

0. . . −ψn,1

.... . .

. . ....

0 · · · 0 −ψn,p

θ1...θq

∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥

2

=∥∥∥ψn + Ψnθ

∥∥∥2

La solution de ce probleme d’optimisation est donnee par

θn = −(ΨTn Ψn)−1ΨT

n ψn (9.10)

On remarque que l’equation (9.10) a la meme forme que la solution des equations de Yule-Walker enprenant pour suite des “observations” les p+ 1 coefficients de prediction 1,−ψn,1, . . . ,−ψn,p.

Dans la methode de Durbin, qui estime un MA(q) comme un AR(p) long, se pose le problemedu choix de l’ordre p. Ce probleme ne sera pas traite ici de facon generale. Nous nous limiteronsa l’exemple numerique qui suit et qui montre qu’il y a un compromis a trouver entre le biais et lavariance. Remarquons a ce sujet que, plus les zeros de θ(z) sont proches du cercle unite, plus la valeurde p doit etre choisie grande pour diminuer le biais faible. D’un autre cote, plus l’ordre p est grand,plus la dispersion de l’estimateur est grande.

9.2 Exemple (Estimation MA(1) : methode de Durbin):Le tableau 9.1 donne la moyenne, la variance et le risque, estimes empiriquement a partir de 200 realisations,de l’estimateur de Durbin pour un processus MA(1) (ou θ1 = 0.95) et pour differentes valeurs de p. Lataille de l’echantillon est n = 300. On observe que, quand p augmente, la variance augmente, tandis quela moyenne et le risque passent par un minimum.

p 20 40 70 120 250

biais −0.1008 −0.0863 −0.0841 −0.0840 −0.0939variance 0.0007 0.0009 0.0012 0.0016 0.0018

risque 0.0108 0.0083 0.0082 0.0087 0.0106

Table 9.1 – Biais, variance et risque empiriques de l’estimateurde Durbin pour un processus MA(1) pour differentes valeurs de p.

9.3 Estimation ARMA

Considerons un processus ARMA(p, q) causal defini par :

Xt =

p∑k=1

φkXt−k +

q∑k=1

θkZt−k + Zt

134

Page 136: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou φ(z) = 1−∑p

k=1 φkzk 6= 0 pour |z| ≤ 1. On note γ(h) sa fonction de covariance. Alors en multipliant

les deux membres de l’equation recurrente par Xt−h, en prenant l’esperance et en utilisant le fait queE ZtXt−h = 0 pour h ≥ q + 1, il vient :

γ(h) =

p∑k=1

φkγ(h− k)

En regroupant pour q + 1 ≤ h ≤ p+ q les p equations sous forme matricielle, on obtient :γ(q) γ(q − 1) · · · · · · γ(q − p+ 1)

γ(q + 1) γ(q) · · · · · · γ(q + p− 2)...

. . ....

. . .

γ(q + p− 1) γ(q + p− 2) · · · γ(q)

φ1

φ2...φp

=

γ(q + 1)γ(q + 2)

...γ(q + p)

(9.11)

Cette expression matricielle a une forme analogue aux equations de Yule-Walker d’un AR(p). On no-tera cependant que la matrice n’est plus symetrique. En substituant aux coefficients d’autocovarianceγ(q− p+ 1), . . . , γ(q+ p) les coefficients d’autocovariance empiriques γ(q− p+ 1), . . . , γ(q+ p) permetde construire un estimateur du vecteur des coefficients autoregressifs φ1, . . . , φp. Contrairement a l’es-timation des coefficients d’un modele AR(p) par la methode de Yule-Walker, la resolution de (9.11)ne fournit pas necessairement un polynome predicteur φ(z) dont les racines sont toutes strictement al’exterieur du cercle unite. Une facon de proceder est de determiner les racines de φ(z), z1, . . . , zp etde remplacer les racines zi de modules strictement inferieurs a 1 par 1/z∗i . Du point de vue spectral,cette construction est justifiee puisque cette transformation ne modifie la densite spectrale que d’uneconstante multiplicative. Comme pour un processus MA(q) on peut ameliorer l’estimation en partantd’un systeme sur-dimensionne q > pet en determinant une solution de norme minimale.Une fois la suite φ1, . . . , φp estimee, il reste a estimer θ1, . . . , θq, σ

2. Theoriquement si nous dis-posions de la “vraie” suite φk, le processus et = Xt −

∑pk=1 φkXt−k est simplement le processus

MA(q) defini par et = Zt +∑q

k=1 θkZt−k. Une facon simple de proceder est donc de filtrer la suite

X1, . . . , Xn par le filtre de reponse impulsionnelle 1,−φ1, . . . ,−φp puis d’utiliser, par exemple,la methode de Durbin pour estimer θ1, . . . , θq, σ

2. Une autre facon est d’utiliser a nouveau l’idee deDurbin qui est que θ(z)/φ(z) peut etre approchee par un AR(m) causal suffisamment long. Notonsψ1,m, . . . , ψm,m la suite des coefficients, obtenus par prediction lineaire, de ce processus AR. On peut

alors ecrire que (1−∑m

k=1 ψk,mzk)(1 +

∑qk=1 θkz

k) = 1−∑p

k=1 φkzk. En notant εk les coefficients de

zk pour p+ 1 ≤ k ≤ m+ q et en adoptant des notations matricielles evidentes, on peut ecrire :

−ψp+1,m

−ψp+2,m...

−ψm,m0......0

+

−ψp,m · · · −ψp−q+1,m

−ψp+1,m. . .

......

. . .

−ψm,m. . .

0. . .

.... . .

. . ....

0 · · · 0 −ψm,m

θ1...

θq

=

εp+1...

εm+q

135

Page 137: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

qui peut encore ecrire, de facon plus compacte, ψ = −Ψθ + e. La solution qui minimise eTe a pourexpression :

θ = −(ΨT Ψ)−1ΨT ψ (9.12)

notons ici que, contrairement a l’expression (9.10), la matrice a inverser dans (9.12) n’est pas unematrice de Toeplitz et ne peut donc inverser, de facon rapide, par l’algorithme de Levinson.

Comme dans le cas de l’estimation MA(q), aucune de ces deux methodes n’est vraiment precise.Toutefois elles fournissent des estimees correctes pour l’initialisation d’algorithmes iteratifs.

136

Page 138: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 10

Estimation des modeles ARMA(p, q) :methodes de maximum devraisemblance

10.1 Methode du Maximum de vraisemblance pour les modeles AR

Considerons un processus ARMA(p, q)

Xt −p∑j=1

φjXt−j = Zt +

q∑j=1

θjZt−j ,

ou Zt ∼ BB(0, σ2). Nous etudions dans ce chapitre l’estimateur du maximum de vraisemblance.Notons η = (c, φ1, . . . , φp, θ1, . . . , θq, σ

2) le vecteur des parametres du modele. Cette approche consistea calculer la vraisemblance

η 7→ p(X1, . . . , Xn;η) ,

et a chercher la valeur du parametre η qui maximimise cette fonction. Cette approche, a l’inverse desmethodes elementaires, requierent de supposer que Zt ∼ IID(0, σ2) est un bruit blanc fort et despecifier la loi marginale de Z. Nous supposerons dans ce chapitre, sauf mention expresse, que Ztest un bruit blanc gaussien.

La mise en oeuvre de la procedure du maximum de vraisemblance procede en deux etapes. Lapremiere etape consiste a calculer la fonction de vraisemblance (ou le logarithme de cette fonction).La deuxieme etape consiste a maximiser la fonction ainsi calculee.

10.1.1 modele AR(1) : Methode du maximum de vraisemblance exact

Considerons tout d’abord un processus AR(1) gaussien stationnaire

Xt = c+ φXt−1 + Zt ,

ou Zt ∼ IID(0, σ2) est un bruit blanc fort gaussien. Dans ce cas le parametre a estimer est η =(c, φ, σ2).

137

Page 139: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Considerons tout d’abord la distribution de X1, la premiere observation. Nous avons

E X1 = µ = c/(1− φ) ,

Var(X1) = σ2/(1− φ2) .

Comme Zt est un processus gaussien, la variable X1 est gaussienne et la densite de cette variableest donnee par

p(X1;η) =1√

2π√σ2/(1− φ2)

exp

[−(X1 − [c/(1− φ)])2

2σ2/(1− φ2)

].

Considerons ensuite la distribution de X2 conditionnelle a X1. Comme X2 = c + φX1 + Z2 et que lavariable Z2 est independante de X1, la loi de X2 conditionnelle a X1 est une loi gaussienne de moyennec+ φX1 et de variance σ2

p(X2|X1,η) =1√

2πσ2exp

[−(X2 − c− φX1)2

2σ2

].

La densite conjointe des observations (X1, X2) est donnee, en appliquant la regle de Bayes, par

p(X1, X2;η) = p(X2|X1;η)p(X1;η) .

De facon generale, la loi de Xt conditionnelle a Xt−1, . . . , X1 est une loi gaussienne de moyennec+ φXt−1 et de variance σ2 (elle ne depend de Xt−1, . . . , X1 qu’a travers Xt−1)

p(Xt|Xt−1, . . . , X1;η) =1√

2πσ2exp

[−(Xt − c− φXt−1)2

2σ2

].

En appliquant de facon recursive la regle de Bayes, la vraisemblance des observations est donnee par

p(X1, . . . , Xn;η) = p(X1;η)n∏j=2

p(Xt|Xt−1;η).

Le logarithme de la vraisemblance (ou log-vraisemblance) est donnee par

`(η) = log p(X1;η) +n∑t=2

log p(Xt|Xt−1;η)

= −n2

log(2π)− 1

2log

(σ2

1− φ2

)− (X1 − [c/(1− φ)])2

2σ2/(1− φ2)

− (n− 1)

2log(σ2)−

n∑t=2

(Xt − c− φXt−1)2

2σ2. (10.1)

L’estimateur du maximum de vraisemblance η correspond a la valeur η qui maximize la fonctionη 7→ `(η). L’optimisation d’un tel critere n’est pas explicite, et on doit donc avoir recours a uneprocedure d’optimisation numerique pour determiner l’estimateur. Voir paragraphe 10.4.

138

Page 140: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

10.1.2 modele AR(1) : une autre methode de calcul de la vraisemblance

Collectons les observations dans un vecteur X = [X1, . . . , Xn]T . Le vecteur X est un vecteurgaussien de moyenne µ = [c/(1−φ), . . . , c/(1−φ)]T et de matrice de covariance Ω(φ, σ2) = Covφ,σ2(X),

ou Ωk,l(φ, σ2) = Covφ,σ2(Xk, Xl), 1 ≤ k, l ≤ n. Dans ce cas particulier, Covφ,σ2(Xk, Xl) = σ2φ|k−l|/(1−

φ2). Par consequent, Ω(φ, σ2) = σ2V (φ), ou la matrice V (φ) est donnee par :

V (φ) =1

1− φ2

1 φ φ2 . . . φn−1

φ 1 φ . . . φn−2

φ2 φ 1 . . . φn−3

......

... . . ....

φn−1 φn−2 φn−3 . . . 1

La loi du vecteur X est donnee par

p(X;η) =1

(2π)n/2|Ω(φ, σ2)|−1/2 exp

[−1

2(X− µ)TΩ−1(φ, σ2)(X− µ)

],

et la log vraisemblance a pour expression

`(η) = −(n/2) log(2π) +1

2log |Ω−1(φ, σ2)| − 1

2(X− µ)TΩ−1(φ, σ2)(X− µ) .

Considerons la matrice L(φ) donnee par

L(φ)def=

√1− φ2 0 0 . . . 0 0−φ 1 0 . . . 0 00 −φ 1 . . . 0 0...

...... . . .

......

0 0 0 . . . −φ 1

Notons que V −1(φ) = LT (φ)L(φ) : L(φ) est un facteur de Choleski de l’inverse de la matrice V (φ)).Par consequent, Ω−1(φ) = σ−2LT (φ)L(φ) et

`(η) = −(n/2) log(2π) +1

2log |σ−2LT (φ)L(φ)| − 1

2(X− µ)Tσ−2LT (φ)L(φ)(X− µ) . (10.2)

En posant ε = L(φ)(X− µ), nous avons

X =

√1− φ2 0 0 . . . 0 0−φ 1 0 . . . 0 00 −φ 1 . . . 0 0...

...... . . .

......

0 0 0 . . . −φ 1

X1 − c/(1− φ)X2 − c/(1− φ)X3 − c/(1− φ)

...Xn − c/(1− φ)

=

√1− φ2[X1 − c/(1− φ)]

X2 − c− φX1

X3 − c− φX2...

Xn − c− φXn−1

139

Page 141: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et par suite

1

2(X− µ)Tσ−2LT (φ)L(φ)(X− µ) =

1

2σ2‖ε‖2

=1

2σ2(1− φ2)[X1 − c/(1− φ)]2 +

1

2σ2

n∑t=2

(Xt − c− φXt−1)2 . (10.3)

Nous avons d’autre part

1

2log |σ−2LT (φ)L(φ)| = −n

2log(σ2) + log |L(φ)| .

Comme la matrice L(φ) est triangulaire inferieure, son determinant est egal au produit de ces elementsdiagonaux. Par consequent

1

2log |σ−2LT (φ)L(φ)| = −n

2log(σ2) +

1

2log(1− φ2) . (10.4)

En substituant (10.3) et (10.4) dans (10.2), nous retrouvons (10.1). Cette facon de proceder est doncune autre methode de calcul de la vraisemblance.

10.1.3 modele AR(1) : methode du maximum de vraisemblance conditionnel

Au lieu d’optimiser la vraisemblance η 7→ p(X1, . . . , Xn;η), le maximum de vraisemblance condi-tionnel maximise la vraisemblance conditionnelle η 7→ p(X2, . . . , Xn|X1;η) =

∏nt=2 p(Xt|Xt−1;η). La

log-vraisemblance conditionnelle, dans le cas gaussien, est donnee par

log p(X2, . . . , Xn|X1;η) = −n− 1

2log(2π)− n− 1

2log(σ2)−

n∑t=2

(Xt − c− φXt−1)2

2σ2.

La maximimisation en c et φ equivaut a minimiser

n∑t=2

(Xt − c− φXt−1)2

et revient donc a calculer les coefficients du regresseur lineaire du vecteur (X2, . . . , Xn) par rapport ala matrice de regression

1 X1

1 X2...

...1 Xn−1

La solution de ce probleme est donne par[

c

φ

]=

[n− 1

∑n−1t=1 Xt∑n−1

t=1 Xt∑n−1

t=1 X2t

]2 [ ∑nt=2Xt∑n

t=2Xt−1Xt

].

140

Page 142: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

L’estimateur du maximum de vraisemblance conditionnel de la variance est donne par

σ2 =n∑t=2

(Xt − c− φXt−1)2

n− 1.

A l’inverse de l’estimateur du maximum de vraisemblance exact, l’estimateur du maximum de vrai-semblance conditionnel est facile a calculer. Lorsque n est suffisamment grand, la contribution de lapremiere observation devient negligeable. On peut montrer que l’estimateur du maximum de vrai-semblance exact ont la meme loi asymptotique. Cet estimateur est le plus couramment utilise enpratique.

10.1.4 modele AR(p) : Methode du maximum de vraisemblance exact

Considerons un AR(p) causal Xt = c + φ1Xt−1 + · · · + φpXt−p ou Zt ∼ IID(0, σ2) et Z0 estGaussien. Le calcul de la vraisemblance combine les deux methodes de calcul de la vraisemblanceprecedente. Collectons tout d’abord les p premieres observations dans un vecteur Xp

def= [X1, . . . , Xp]

T .Xp est un vecteur Gaussien de moyenne µp = [µ, . . . , µ]T ou

µ = c/(1− φ1 − · · · − φp) , (10.5)

et de matrice de covariance σ2Vp ou

σ2Vp =

γ(0) γ(1) . . . γ(p− 1)γ(1) γ(0) . . . γ(p− 2)

...... . . .

...γ(p− 1) γ(p− 2) . . . γ(0)

ou γ(h) est la fonction d’autocovariance de Xt. La densite de ce vecteur aleatoire est donnee par

p(X1, . . . , Xp;η) = (2π)−p/2σ−p|V −1p |1/2 exp

[− 1

2σ2(Xp − µp)TV −1

p (Xp − µp)].

Remarquons ensuite que Xp+1 = c+ φ1Xp + · · ·+ φpX1 + Zp+1

...

Xn = c+ φ1Xn−1 + · · ·+ φpXn−p + Zn

Rappelons que, pour un AR(p) causal (φ(z) 6= 0 pour |z| ≤ 1), les variables aleatoires X1, . . . , Xp ap-

partiennent a HZp = span (Zs; s ≤ p). Comme Zt ∼ IID(0, σ2), les variables aleatoires X1, . . . , Xpsont independantes des variables aleatoires Zp+1, . . . , Zn. On en deduit que le logarithme de ladensite du vecteur (Xp+1, . . . , Xn) conditionnellement a (X1, . . . , Xp) est donnee par :

log p(Xp+1, . . . , Xn|X1, . . . , Xp;η) =n∑

t=p+1

log p(Xt|Xt−1, . . . , Xt−p;η)

= −(n− p)2

log(2π)− (n− p)2

log(σ2)− 1

2σ2

n∑t=p+2

Xt − c−p∑j=1

φjXt−j

2

. (10.6)

141

Page 143: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La log-vraisemblance a donc pour expression

`(η) = −n2

log(2π)− n

2log(σ2) +

1

2log |V −1

p |

− 1

2σ2[Xp − µp]TV −1

p [Xp − µp]−1

2σ2

n∑t=p+1

Xt −p∑j=1

φXt−j

2

. (10.7)

L’evaluation de la fonction d’autocovariance requiert donc, pour chaque valeur de η, d’evaluer la formequadratique 1

2(Xp − µp)Tσ−2V −1p (Xp − µp) et de calculer le logarithme du determinant log |V −1

p |.Notons comme precedemment Lp un facteur de Choleski de l’inverse de Vp : V −1

p = LTp Lp. En notantcomme precedemment εp = Lp(Xp − µ), la forme quadratique a pour expression

1

2(Xp − µp)Tσ−2V −1

p (Xp − µp)1

2σ2XTp Xp .

Nous avons d’autre part1

2log |σ−2LTp Lp| = −

p

2log(σ2) + log |Lp| .

Comme la matrice Lp est triangulaire inferieure, son determinant est egal au produit de ces elementsdiagonaux et log |Lp| est donc egal a la somme des logarithmes de ces elements diagonaux. Le problemese ramene donc a trouver une methode de calcul de la decomposition de Choleski de l’inverse de lamatrice de covariance. Pour 1 ≤ ` < p, notons par (φ`,1, . . . , φ`,`) les coefficients du predicteur lineaireoptimal d’ordre `

proj (Xt|Xt−1, Xt−2, . . . , Xt−`) = µ−∑j=1

φ`,j(Xt − µ) ,

ou µ est donne par Ces coefficients de prediction (φ`,1, . . . , φ`,`) sont evalues dans les recursions deLevinson-Durbin (voir paragraphe 5.2). En utilisant ces predicteurs, nous pouvons calculer les erreursde prediction directe aux differents ordres

ε+0,1 = X1 − µε+1,2 = X2 − proj (X2|X2) = X2 − µ− φ1,1(X1 − µ)

ε+2,3 = X3 − proj (X3|X2, X1) = X3 − µ− φ2,1(X2 − µ)− φ2,2(X1 − µ)

...

ε+p−1,p = Xp − proj (Xp|Xp−1, . . . , X1) = Xp − µ−p∑j=1

φp−1,j(Xp−j − µ) .

Par construction, les erreurs de prediction directes ε+1,1, . . . , ε+p,p sont decorrelees. Leurs variances sont

egales aux variances des erreurs de prediction directes aux differents ordres donnees σ20, . . . , σ

2p−1.

Rappelons que ces erreurs de prediction peuvent se calculer recursivement : σ2` = σ2

`−1(1 − k2` ) ou k`

142

Page 144: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

est le `-ieme coefficient de correlation partielle, et σ20 = γ(0). Posons

Lp =

1 0 0 · · · 0 0−φ1,1 1 0 · · · 0 0−φ2,2 −φ2,1 1 · · · 0 0

......

... · · ·...

...−φp−1,p−1 −φp−1,p−2 −φp−1,p−3 · · · −φp−1,1 1

En appliquant la matrice Lp au vecteur Xp − µp, nous obtenons donc

εpdef=

ε+0,1ε+1,2ε+2,3

...ε+p−1,p

= Lp(Xp − µp) ,

et par consequent

Dp =

σ2

0 0 0 · · · 00 σ2

1 0 · · · 00 0 σ2

2 · · · 0...

...... · · ·

...0 0 0 · · · σ2

p−1

= Lpσ2VpL

Tp .

En inversant la relation precedente, nous obtenons

D−1p = σ−2L−Tp V −1

p L−1p ,

et en multipliant a droite et a gauche la relation precedente par LTp et Lp, respectivement, nousobtenons

V −1p = σ2LTpD

−1p Lp .

En posant Lp = D−1/2p Lp nous obtenons ainsi les facteurs de Choleski de l’inverse requis pour calculer

la forme quadratique. L’optimisation de la log-vraisemblance exacte necessite d’avoir recours a unemethode d’optimisation numerique.

10.1.5 Modele AR(p) : Maximum de vraisemblance approche

L’estimateur du maximum de vraisemblance conditionnel consiste a trouver, pour une suite d’ob-servations (X1, . . . , Xn), la valeur de η qui maximise la log-vraisemblance conditionnelle (10.6).

Dans le cas ou la loi de Zt est gaussienne, 2 log pZ(z;σ2) = − log(2πσ2) − z2/σ2 et l’expression(10.6) s’ecrit :

log p(Xp+1, . . . , Xn|X1, . . . , Xp;θ) = −n− p2

log(2πσ2)− 1

2σ2

n∑k=p+1

(Xk − c− φTXk−1)2

= −n− p2

log(2πσ2)− 1

2σ2‖X−Xφ‖2

143

Page 145: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou Xk = [Xk, Xk−1, . . . , Xk−p+1]T , X = [Xp+1 − µ . . . Xn − µ]T et :

X =

Xp − µ · · · X1 − µXp+1 − µ · · · X2 − µ

...Xn−1 − µ · · · Xn−p − µ

En annulant le gradient de la log-vraisemblance par rapport a φ, nous obtenons X T (X −X φ) = 0.Lorsque la matrice X est de rang complet, ce systeme d’equations a une solution unique donnee parφ = (X TX )−1X T X qui correspond a l’estimateur des moindres carres. On notera que la matriceX TX est symetrique et definie positive, mais que contrairement a la technique de Yule-Walker, ellen’a pas une structure de Toeplitz. La consequence majeure est que l’ estimateur [φ1, . . . , φn,p] qui ensont deduits n’est pas necessairement associe a un AR causal. Il peut arriver que les zeros du polynomeφ(z) associe soient a l’interieur du cercle unite.

Dans le cas ou la loi de Zt n’est pas gaussienne, l’expression d’un estimateur du maximum devraisemblance ne possede pas de forme simple et on doit, en general, faire appel a des techniquesnumeriques.

10.2 Methode du maximum de vraisemblance pour les modeles MA

10.2.1 modele MA(1) : methode du maximum de vraisemblance exact

Considerons un modele MA(1) gaussien, Xt = µ+Zt+θZt−1 ou Zt ∼ BBF (0, σ2) et Z0 est Gaus-sien. Nouns notons φ = (µ, θ, σ2) les parametres de ce modele. Comme dans le paragraphe precedent,considerons le vecteur X = [X1, X2, . . . , Xn]T . La moyenne de ce vecteur est µ = [µ, µ, . . . , µ]T et samatrice de covariance est Ω(φ), qui est donnee par

Ω(θ, σ2)def= σ2

(1 + θ2) θ 0 . . . 0

θ (1 + θ2) θ . . . 00 θ (1 + θ2) . . . 0...

...... . . .

...0 0 0 . . . (1 + θ2)

Le vecteur X est un vecteur Gaussien de moyenne µ et de covariance Ω(θ, σ2). La fonction de vrai-semblance est donc donnee par

(µ, θ, σ2) 7→ p(X1, . . . , Xn;µ, θ, σ2)

= (2π)−n/2|Ω(θ, σ2)|−1/2 exp

[−1

2(X− µ)TΩ−1(θ, σ2)(X− µ)

]. (10.8)

144

Page 146: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Considerons la decomposition de Choleski de la matrice : Ω(θ, σ2) = σ2A(θ)D(θ)AT (θ), ou A(θ) estune matrice triangulaire inferieure donc les elements sont donnes par

A(θ)def=

1 0 0 . . . 0 0θ

1+θ21 0 . . . 0 0

0 θ(1+θ2)1+θ2+θ4

1 . . . 0 0...

...... . . .

......

0 0 0 . . .θ∑n−2j=0 θ

2j∑n−1j=0 θ

2j1

et D(θ) est une matrice diagonale donnee par

D(θ)def=

1 + θ2 0 0 . . . 0

0 1+θ2+θ4

1+θ20 . . . 0

0 0 1+θ2+θ4+θ6

1+θ2+θ4. . . 0

......

... . . ....

0 0 0 . . .∑nj=0 θ

2j∑n−1j=0 θ

2(j−1)

La decomposition de Choleski de la matrice de covariance Ω(θ, σ2) peut etre obtenue en utilisantl’algorithme des innovations, presentes dans le paragraphe 5.4. En effet, considerons le vecteur

ε1 = X1

ε2 = X2 − proj(X2

∣∣ X1

)ε3 = X3 − proj

(X3

∣∣ X2, X1

)...

εn = Xn − proj(Xn

∣∣ Xn−1, . . . , X1

),

ou Xt = Xt−µ, 1 ≤ t ≤ n. Nous n’avons pas indique la dependance des innovations partielles vis-a-visdes parametres (µ, θ, σ2) afin de ne pas alourdir les notations. Par construction, les coordonnees duvecteur [ε1, ε2, . . . , εn]T sont decorrelees. On appelle, pour t ≥ 1, εt = Xt − proj

(Xt

∣∣ Xt−1, . . . , X1

)l’innovation partielle du processus Xt. Nous notons σ2

t = Var(εt), t ∈ 1, . . . , n les variances desinnovations partielles.

Remarquons tout d’abord que, pour tout t ∈ 1, . . . , n, span (X1, . . . , Xt) = span (ε1, . . . , εt).Notons d’autre part que, pour t ≥ 2, Xt ⊥ span (X1, . . . , Xt−2). Par consequent, pour t ∈ 2, . . . , n,

proj(Xt

∣∣ Xt−1, . . . , X1

)= proj

(Xt

∣∣ εt−1, . . . , ε1)

=t−1∑j=1

〈Xt, εj〉‖εj‖2

εj =〈Xt, εt−1〉‖εt−1‖2

εt−1 .

Les coefficients de prediction θt,1 et la variance de l’innovation σ2t peuvent se calculer de facon recursive.

Notons en effet que pour t ∈ 1, . . . , n− 1,

θt,1 =〈Xt+1, εt〉‖εt‖2

.

145

Page 147: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Comme par definition εt = Xt − θt−1,1εt−1, nous avons

〈Xt+1, εt〉 = 〈Xt+1, Xt〉 − θt−1,1〈Xt+1, εt−1〉 .

Comme εt−1 ∈ span (X1, . . . , Xt−1), 〈Xt+1, εt−1〉 = 0, ce qui implique que, pour tout t ∈ 1, . . . , n,

θt,1 =σ2θ

σ2t

. (10.9)

D’autre part, pour t ∈ 2, . . . , n, nous avons :

σ2t+1 = ‖εt+1‖2 = ‖Xt+1‖2 − ‖ proj

(Xt+1

∣∣ Xt, . . . , X1

)‖2 = σ2(1 + θ2)− σ4θ2

σ2t

. (10.10)

Par consequent, comme σ21 = γ(0) = σ2(1 + θ2), nous avons

σ22 = σ2

[(1 + θ2)− θ2

1 + θ2

]= σ4 1 + θ2 + θ4

1 + θ2,

et, par une recurrence elementaire, pour tout t ≥ 1,

σ2t = σ2

∑tj=0 θ

2j∑t−1j=0 θ

2j.

Par construction, pour t ∈ 2, . . . , n, Xt = εt + θt−1,1εt−1, ce qui impliqueX1

X2

X3...Xn

= A(θ)

ε1ε2ε3...εn

.

d’ou l’on deduit que Ω(θ, σ2) = σ2A(θ)D(θ)AT (θ). En utilisant cette decomposition dans l’expressionde la vraisemblance (10.8), nous obtenons donc :

p(X1, . . . , Xn;µ, θ, σ2)

= (2π)−n/2σ−n|A(θ)D(θ)AT (θ)|−1/2 exp

[− 1

2σ2(X− µ)A−T (θ)D−1(θ)A−1(θ)(X− µ)

].

Comme la matrice A(θ) est diagonale inferieure et que ces coefficients diagonaux sont egaux a 1,|A(θ)| = 1 et

|A(θ)D(θ)AT (θ)| = |A(θ)| |D(θ)| |AT (θ)| =n∏t=1

Dt,t(θ) .

En posantε = [ε1, ε2, . . . , εn]T = A−1(θ)(X− µ) , (10.11)

146

Page 148: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

nous avons donc

p(X1, . . . , Xn;µ, θ, σ2) = (2π)−n/2n∏t=1

σ−1t exp

[−1

2

n∑t=1

ε2t /σ2t

].

Comme A(θ) est une matrice triangulaire inferieure, le vecteur ε s’obtient en resolvant de faconrecursive le systeme d’equation A(θ)ε = X− µ, ce qui revient a ecrire

ε1 = X1 − µε2 = X2 − µ− θ1,1ε1

ε3 = X3 − µ− θ2,1ε2...

εn = Xn − µ− θn,1εn−1 ,

ou les coefficients θt,1, t ∈ 1, . . . , n sont calcules de facon recursive a l’aide de (10.9). La log-vraisemblance exacte d’un processus MA(1) est donc donnee par

(µ, θ, σ2) 7→ `(µ, θ, σ2) = −n2

log(2π)− 1

2

n∑t=1

log(σ2t )−

1

2

n∑t=1

ε2tσ2t

.

Cette fonction depend de facon complexe des parametres (µ, θ, σ2) qui interviennent dans le calculdes innovations partielles et de leur variance. L’optimisation de cette quantite necessite donc d’avoirrecours a une procedure d’optimisation numerique.

10.2.2 modele MA(1) : methode du maximum de vraisemblance conditionnel

Nous considerons le processus MA(1) Xt = µ+Zt+θZt−1 ou Zt ∼ IID(0, σ2) et Z0 est gaussien.Nous allons tout d’abord evaluer la vraisemblance conditionnelle

(µ, θ, σ2) 7→ p(X1, . . . , Xn|Z0;µ, θ, σ2) .

En appliquant de facon repetee la loi de Bayes, nous obtenons

p(X1, . . . , Xn|Z0;µ, θ, σ2) = p(X1|Z0;µ, θ, σ2)p(X2|X1, Z0;µ, θ, σ2) . . . p(Xn|Xn−1, . . . , X1, Z0;µ, θ, σ2)

= p(X1|Z0;µ, θ, σ2)n∏t=2

p(Xt|Xt−1, . . . , X1, Z0;µ, θ, σ2) .

Par definition, X1 = µ + Z1 + θZ0 et comme les variables Z1 et Z0 sont independantes, la loi de X1

conditionnelle a Z0 est une loi gaussienne de moyenne µ+ θZ0 et de variance σ2,

p(X1|Z0;µ, θ, σ2) =1√

2πσ2exp

(− 1

2σ2(X1 − µ− θZ0)2

).

Considerons maintenant p(X2|X1, Z0;µ, θ, σ2). Posons ε1(X1, Z0) = X1 − µ − θZ0. Comme, X1 =µ+Z1+θZ0, nous avons ε1(X1, Z0) = Z1+θZ0−θZ0 = Z1. Par consequent, X2 = µ+Z2+θε1(X1, Z0),

147

Page 149: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et comme Z2 est independant de X1 et de Z0, la loi de X2 conditionnelle a X1 et Z0 est une loigaussienne de moyenne µ + θε1(X1, Z0) et de variance σ2. De facon generale, posons ε0(Z0) = Z0 etpour t ∈ 1, . . . , n, definissons recursivement εt(X1, . . . , Xk, Zk) par

εt(X1, . . . , Xt, Z0) = Xt − µ− θεk−1(X1, . . . , Xt−1, Z0) .

Nous avons

ε1(X1, Z0) = X1 − µ− θZ0 = Z1 ,

ε2(X1, X2, Z0) = X2 − µ− θε1(X1, Z0) = Z2 ,

et, par une recurrence elementaire, pour tout t ∈ 1, . . . , n,

εt(X1, . . . , Xt, Z0) = Xt − µ− θεt−1(X1, . . . , Xt−1, Z0) = Xt − µ− θZt−1 = Zt .

Comme Zt est independant de (X1, . . . , Xt−1, Z0), la loi de Xt conditionnelle a (Xt−1, . . . , X1, Z0) estune loi gaussienne de moyenne θεt−1(X1, . . . , Xt−1, Z0) et de variance σ2. Par consequent, la vraisem-blance de (X1, X2, . . . , Xn) conditionnelle a Z0 est donnee par :

p(X1, . . . , Xn|Z0;µ, θ, σ2) =1

(2π)n/21

σnexp

[− 1

2σ2

n∑t=1

ε2t (X1, . . . , Xt, Z0)2

].

L’estimateur du maximum de vraisemblance conditionnel consiste a maximiser la vraisemblance del’observation conditionnelle a Z0 = 0

(µ, θ, σ2) 7→ p(X1, . . . , Xn|Z0 = 0;µ, θ, σ2) .

Pour evaluer cette fonction, nous calculons de facon recursive

ε0 = 0

ε1(X1) = X1 − µε2(X1, X2) = X2 − µ− θε1(X1)

...

et pour t ∈ 2, . . . , n,

εt(X1, . . . , Xt) = Xt − µ− θεk−1(X1, . . . , Xt−1) . (10.12)

puis nous evaluons

p(X1, . . . , Xn|Z0 = 0;µ, θ, σ2) =1

(2π)n/21

σnexp

[− 1

2σ2

n∑t=1

ε2t (X1, . . . , Xt)

].

Bien que la vraisemblance conditionnelle se calcule simplement (pour une valeur de µ, θ, σ2, il suffit decalculer recursivement It(X1, . . . , Xt) en utilisant (10.12), puis a evaluer la somme des carres), c’estune fonction complexe du parametre µ, θ, σ2 : a l’inverse du modele AR(p), l’optimisation de la vrai-semblance conditionnelle n’est pas significativement plus simple que l’optimisation de la vraisemblanceexacte. Ce probleme d’optimisation doit etre resolu par une methode numerique, ce qui limite l’interetde cette approche.

148

Page 150: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

10.2.3 Modele MA(q) : Methode du maximum de vraisemblance exact

Considerons un modele MA(q) gaussien, Xt = µ + Zt +∑q

j=1 θjZt−j ou Zt ∼ BBF (0, σ2) et

Z0 est Gaussien. Nouns notons η = (µ,θ, σ2), avec θ = (θ1, . . . , θq) les parametres de ce modele.Comme dans le paragraphe precedent, considerons le vecteur X = [X1, X2, . . . , Xn]T . La moyenne dece vecteur est µ = [µ, µ, . . . , µ]T et sa matrice de covariance est Ω, qui est donnee par

[Ω(φ)]k,l = γ(k − l) , 1 ≤ k, l ≤ n ,

ou, pour |h| ≤ q, γ(h) = σ2∑q−|h|

j=0 θjθj+|h| (en posant θ0 = 1), et γ(h) = 0 pour |h| ≥ q + 1. Lamatrice Ω(φ) est une matrice de Toeplitz dont seules les 2q+1 diagonales sont non-nulles. La fonctionde vraisemblance est donnee par

φ 7→ p(X1, . . . , Xn;φ) = (2π)−n/2|Ω(φ)|−1/2 exp

[−1

2(X− µ)TΩ−1(φ)(X− µ)

]. (10.13)

Comme dans le cas d’un modele MA(1), nous allons tout d’abord calculer la decomposition de Choleskide la matrice

Ω(η, σ2) = σ2A(η)D(η)AT (η) , η = [θ1, . . . , θq] , (10.14)

ou A(η) est une matrice triangulaire inferieure et D(η) est une matrice diagonale. Le calcul de cettedecomposition de Choleski s’obtient en utilisant l’algorithme des innovations, qui consiste a evaluerde facon recursive pour t ∈ 1, . . . , n, l’innovation du processus definie par

ε1 = X1

ε2 = X2 − proj(X2

∣∣ X1

)= X2 − proj

(X2

∣∣ ε1)...

εq = Xq − proj(Xq

∣∣ Xq−1, . . . , X1

)= Xq − proj (Xq| εq−1, . . . , ε1) ,

et pour t ≥ q + 1,

εt = Xt−proj(Xt

∣∣ Xt−1, Xt−2, . . . , X1

)= Xt−proj

(Xt

∣∣ εt−1, . . . , ε1)

= Xt−proj(Xt

∣∣ εt−1, . . . , εt−q),

ou nous avons pose Xt = Xt − µ et ou nous avons utilise les identites

1. span(X1, . . . , Xt

)= span (ε1, . . . , εt) pour t ∈ 1, . . . , n et pour t ≥ q + 1,

2. Pour t ≥ q + 1, Xt ⊥ span(Xt−q, . . . , X1

)= span (εt−q, . . . , ε1),

3. Pour t ≥ q + 1, proj(Xt

∣∣ Xt−1, . . . , X1

)= proj

(Xt

∣∣ εt−1, . . . , ε1)

=∑q

j=1〈Xt,εt−j〉‖εt−j‖2 εt−j et

Pour t ∈ 1, . . . , n, notons par θt,i, 1 ≤ i ≤ min(t, q) les coefficients du predicteur lineaire optimal,i.e. pour t ∈ 1, . . . , n

proj(Xt+1

∣∣ εt, . . . , ε1) =

min(t,q)∑j=1

θt,jεt+1−j ,

ou, pour tout t ∈ 1, . . . , n, nous avons pose

θt,j =〈Xt+1, εt+1−j〉

σ2t+1−j

, j ∈ 1, . . . ,min(t, q) .

149

Page 151: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Les coefficients se calculent recursivement, en utilisant les equations (5.34) et (5.35), qui s’ecrivent,pour j = max(1, t− q), . . . , t− 1,

θt,t−j = σ−2j+1

γ(t− j)−j−1∑

k=(t−q)∨(j−j∧q)

θj,j−kθt,t−kσ2k+1

,

et

σ2t+1 = γ(0)−

t−1∑j=(t−q)∨1

θ2t,t−jσ

2j+1 .

Nous ne detaillerons pas, pour les modeles MA(q) la methode du maximum de vraisemblance condi-tionnel.

10.3 Methode du maximum de vraisemblance pour les modelesARMA

Methode du maximum de vraisemblance approchee

Comme dans le cas MA(q), partant de l’equation Xt = Zt +∑q

k=1 θkZt−k +∑p

k=1 φkXt−k ou Ztest un bruit blanc, centre, gaussien, on peut ecrire :

1 0 · · · · · · 0−φ1 1 · · · · · · 0

.... . .

. . ....

. . . 1 00 · · · −φ1 1

Xp

...Xn

+ Φ0

Xp−1...X1

=

1 0 · · · · · · 0θ1 1 · · · · · · 0...

. . .. . .

.... . . 1 0

0 · · · θ1 1

Zp...Zn

+ Θ0

Zp−1...

Zp−q

On peut alors determiner une expression approchee de la log-vraisemblance conditionnelle deXp, . . . , Xn par rapport a X1, . . . , Xp−1, en negligeant le terme contenant Zp−1, . . . Zp−q. Ilvient :

log pXp,...,Xn|X1,...,Xp−1(x1, . . . , xn;θ,φ, σ2) ≈ −n− p

2log(2πσ2)− 1

2σ2

[x1 · · · xn

]C(θ,φ)

x1...xn

ou C(θ,φ) = (Θ−1Φ)TΘ−1Φ. La maximisation de log pX1,...,Xn(x1, . . . , xn;θ,φ, σ2) par rapport a θ,φ et σ2 peut etre faite par des techniques numeriques.

10.4 Methodes numeriques d’optimisation

Nous decrivons brievement dans ce paragraphe les algorithmes d’optimisation numerique, en com-mencant par le plus simple, l’algorithme du gradient (appele aussi algorithme de la plus forte pente)

150

Page 152: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

puis en introduisant les algorithmes de quasi-Newton. Nous referons le lecteur interesse par l’optimi-sation non-lineaire aux livres classiques de Luenberger [1984], Fletcher [1987] et Nocedal and Wright[2006].

Nous considerons seulement l’optimisation d’une fonction ` : θ 7→ `(θ) definie sur Θ = Rdθ .Nous supposons dans tout ce chapitre que la fonction ` est deux fois continument differentiable.Les algorithmes d’optimisation sont iteratifs : ils construisent une suite θi, i ≥ 0 qui converge(eventuellement) vers un extremum de la fonction `.

10.4.1 Algorithme de la plus forte pente

L’algorithme le plus simple revient a mettre a jour la valeur courante du parametre θi en luiajoutant une quantite proportionnelle au gradient ∇θ`(θi) de la fonction en ce point :

θi+1 = θi + γi∇θ`(θi) . (10.15)

Le pas γi est une suite de nombres non negatifs qui doit etre choisi de telle sorte que la suite `(θi)soit non decroissante — l’algorithme est alors dit monotone dans le sens ou la valeur du critere `(θi)augmente a chaque iteration.

Une facon de choisir le pas γi dans la direction du gradient est de chercher la valeur qui maximisela fonctionnelle :

γi = arg maxγ≥0 `[θi + γ∇θ`(θi)] . (10.16)

On parle alors d’algorithme de plus forte pente a pas optimal. On peut montrer (voir par exemple[Luenberger, 1984, Chapter 7]) que sous des conditions techniques non restrictives, l’algorithme dela plus forte pente (10.16) converge, et que l’ensemble des points limites coincide avec les pointsstationnaires de la fonction `.

De facon pratique, il est souvent impossible de determiner numeriquement la valeur exacte dumaximum dans (10.16). Il est d’usage d’utiliser des algorithmes d’optimisation approches afin d’obtenirune valeur raisonnable du pas γi. Un algorithme approche essaie typiquement un certain nombre devaleurs du pas γ, en s’arretant lorsque certaines conditions sont satisfaites. Cette recherche approcheeest en general effectuee en deux phases : une premiere phase consiste a trouver un intervalle de valeursraisonnable pour γ et une seconde phase (bisection ou interpolation) ou l’on cherche a determiner unevaleur appropriee du pas dans l’intervalle de recherche. Ces algorithmes approches sont souvent assezcomplexes (et conditionnent frequemment le succes de la methode) ; voir [Nocedal and Wright, 2006,Chapitre 3].

La convergence de l’algorithme de la plus forte pente peut etre lente en particulier lorsque ladimension de l’espace des parametres est grande. On peut montrer que la vitesse de convergence decet algorithme est lineaire au sens ou, si la suite θii≥0 converge en un point θ? ou le Hessien ∇2

θ`(θ?)est defini negatif.alors

limi→∞

∣∣θi+1(k)− θ?(k)∣∣

|θi(k)− θ?(k)|= ρk < 1 ; (10.17)

ou θ(k) est la keme coordonnee du vecteur de parametres. Lorsque la dimension de l’espace desparametres est grande, il apparaıt, qu’au moins pour une composante k, le facteur ρk est proche de1. Lorsque la fonction ` est deux fois differentiable, il est possible de mettre en oeuvre des methodesd’optimisation permettant d’obtenir des vitesses super-lineaires.

151

Page 153: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

10.4.2 Algorithme de Newton et de quasi Newton

L’algorithme de Newton-Raphson revient a modifier la direction de mise a jour :

θi+1 = θi −H−1(θi)∇θ`(θi) , (10.18)

ou H(θi) = ∇2θ`(θ

i) est le Hessien de la fonction `. L’algorithme de Newton-Raphson peut etre comprisen utilisant une approximation localement quadratique de la fonction d’objectif

`(θ) ≈ `(θ′) +∇`(θ′)(θ − θ′

)+

1

2

(θ − θ′

)tH(θ′)

(θ − θ′

).

Si la suite θii≥0 converge vers une valeur θ? pour lequel le Hessien est defini negatif, la vitesse deconvergence est quadratique, dans le sens ou il existe une constante positive β elle que ‖θi+1 − θ?‖ ≤β‖θi − θ?‖2.

L’utilisation pratique de l’algorithme de Newton-Raphson requiert toutefois quelques precautions.Si la fonction ` n’est pas concave, l’algorithme peut diverger. Pour eviter ce probleme, il est d’usaged’utiliser un pas γi afin de controler l’amplitude de la mise a jour le long de la direction de rechercheH−1(θi)∇θ`(θi),

θi+1 = θi − γiH−1(θi)∇θ`(θi) . (10.19)

Il est d’usage de choisir ce pas γi de facon a maximiser la fonctionnelle

γi = arg maxγ≥0 `[θi + γH−1(θi)∇θ`(θi)] . (10.20)

Lorsque la fonctionnelle θ 7→ `(θ) n’est pas strictement concave, l’implementation directe de (10.18)peut conduire a des divergences : dans certaines regions de l’espace des parametres, la matrice hessienneH(θ) peut etre mal conditionnee ou definie positive (auquel cas la direction −H−1(θi)∇θ`(θi) n’estpas necessairement une direction de recherche valide). Pour eviter cet ecueil, les methodes de Quasi-Newton utilisent la recursion modifiee

θi+1 = θi + γiWi∇`(θi) ; (10.21)

ou W i est une matrice de poids, qui peut etre ajustee a l’instar du pas γi. Si l’algorithme de misea jour de la matrice de poids W i conduit a une matrice proche de la matrice hessienne −H−1(θi)lorsque l’algorithme est proche de la convergence, alors l’algorithme de quasi-Newton aura une vitessede convergence super-lineaire ; voir Luenberger [1984] et [Nocedal and Wright, 2006, chapitres 7,8 et9] pour une discussion precise des methodes de quasi-Newton (notons que ces methodes utilisent laplupart du temps uniquement l’information liee au gradient pour calculer la matrice de poids W i etn’utilisent generalement pas la valeur de la matrice hessienne H(θ)).

152

Page 154: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Troisieme partie

Modeles d’etats

153

Page 155: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 11

Definitions, exemples et inference desetats

11.1 Definition

La forme generique du modele d’etat Gaussien que nous allons considerer est donnee par lesequations

Xk+1 = AXk +RUk , (11.1)

Yk = BXk + SVk , (11.2)

ou– Ukk≥0 et Vkk≥0 sont les bruits d’etat et de mesure ; nous supposons que les vecteurs aleatoires(Uk, Vk)k∈Z sont independants et identiquement distribues (i.i.d.) de loi gaussienne centree etde covariance identite ;

– La condition initiale X0 est un vecteur aleatoire gaussien de moyenne µν et de covariance Γν etest independante des bruits de d’etat et de mesures Uk and Vk ;

– La matrice de transition d’etats A, la matrice de mesures B, et les matrices R et S sont desmatrices connues.

Ces modeles ont ete introduits dans la litterature a la fin des annees 1950 Kalman and Bucy [1961] ;ces modeles sont aujourd’hui couramment utilises en traitement des series temporelles scalaires oumultivariees, avec des applications en econometrie, finance, mais aussi dans differents domaines dutraitement du signal et du controle. Les etudiants souhaitant approfondir ce sujet (tres vaste) pourrontconsulter avec profit les livres de Anderson and Moore [1979], Caines [1988], ainsi que celui, plus recent,de Kailath et al. [2000].

Remarque 11.1 Notre definition des modeles d’etats (11.1)–(11.2) est assez classique (a l’exception duchoix des symboles representant les differentes matrices, mais il n’y a pas d’usage clairement fixe) ;Les roles joues par les matrices R et S requierent toutefois un commentaire. Nous avons supposeque les processus Uk et Vk sont i.i.d. gaussiens, de moyenne nulle et de covariance identite. Parconsequent, R et S sont des racines carrees des matrices de covariance du bruit d’etats et de mesure,

Cov(RUk) = RRt et Cov(SVk) = SSt ,

154

Page 156: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

11.1 Exemple (Processus autoregressif bruite):Un processus autoregressif d’ordre p, Zkk≥0, est un processus stationnaire au second-ordre qui satisfaitl’equation aux differences

Zk+1 = φ1Zk + · · ·+ φpZk−p+1 + Uk , (11.3)

ou Ukk≥0 est un bruit blanc. Definissons le vecteur

Xk = (Zk, . . . , Zk−p+1)t , (11.4)

en ”empilant” les valeurs retardees. Appelons A la matrice compagnon associee au polynome de predictionφ(z) = 1− φ1z − · · · − φpzp,

A =

φ1 φ2 . . . φp1 0 . . . 00 1 . . . 0...

.... . .

...0 0 . . . 1 0

. (11.5)

En utilisant les notations precedentes, l’equation aux differences (11.3) peut etre reecrite sous forme d’etats :

Xk = AXk−1 +(1 0 . . . 0

)tUk−1 , (11.6)

Yk =(1 0 . . . 0

)Xk . (11.7)

Si le processus autoregressif n’est pas directement observable mais que nous disposons de mesures bruiteesde celui-ci, l’equation de mesures (11.7) est remplacee par

Yk =(1 0 . . . 0

)Xk + Vk , (11.8)

ou Vkk≥0 est le bruit de mesure. Remarquons que le polynome caracteristique de la matrice compagnonA est donnee par :

ϕA(λ)def= det(λI −A) = λp − φ1λ

p−1 − · · · − φp (11.9)

Nous disons que la matrice compagnon A est stable si toutes les valeurs propres de cette matrices sontde modules strictement inferieurs a 1. La matrice est stable si et seulement si les zeros du polynome deprediction φ(z) = 1− φ1z− · · · − φpzp sont tous a l’exterieur du cercle unite (et donc le processus AR estcausalement stable).

11.2 Filtrage dans le modele lineaire Gaussien

Considerons le modele d’etat :

Xk+1 = AkXk +RkUk, (11.10)

Yk = BkXk + SkVk, (11.11)

ou Ukk≥0 et Vkk≥0 sont deux bruits blancs forts Gaussiens independants (les suite Uk et Vksont i.i.d. independantes, Uk ∼ N(0, I) et Vk ∼ N(0, I), I notant la matrice identite). De plus, nous

155

Page 157: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

supposons que l’etat initial X0 est distribue suivant une loi gaussienne de moyenne nulle et de matricede covariance Σν , ce que nous notons X0 ∼ N(0,Σν) et que l’etat initial X0 est independant des bruitsd’etats Uk et de mesure Vk. Dans la plupart des applications que nous considererons, la matricede covariance du bruit de mesure SkS

tk = Cov(SkVk) est de rang complet ; A l’inverse, la dimension

du vecteur representant le bruit de mesure Uk (que nous appellerons aussi l’excitation, ou, en anglaisdisturbance) est dans de nombreuses situations inferieure a la dimension de l’etat Xk : par consequentla matrice RkR

tk est, dans de nombreux cas, de rang deficient.

Par rapport au modele que nous avons introduit dans le paragraphe 11.1, la principale differencetient au fait que les differentes matrices intervenant dans la definition de l’evolution de l’etat et dela mesure, Ak, Bk, Rk, et Sk dependent de l’index temporel k. Cette generalisation est utile pourmodeliser des systemes presentant certaines formes de non-stationarite.

Une propriete remarquable des modeles lineaires d’etats gaussiens definis par (11.10)–(11.11) estque la suite des vecteurs d’etats X0:n et des observations Y0:n sont conjointement gaussiens (pourtout n) ; par consequent, les distributions conditionnelles des etats etant donnees les observations sontelles aussi gaussiennes. Ces distributions conditionnelles sont donc determinees par la donnee de leursmoyennes et de leurs matrices de covariance. Nous etudierons plus specifiquement dans la suite de cechapitre :

– la distribution conditionnelle de l’etat Xk etant donnee les observations jusqu’a la date k − 1et la distribution initiale ν, que nous notons φν,k|k−1 ; nous appelons cette loi la distribution deprediction (ou distribution predictive),

– la distribution de l’etat a la date k etant donnee les observations jusqu’a l’instant k et la distri-bution initiale ν, que nous notons φν,k ; nous appelons cette loi la distribution de filtrage.

Remarquons que les distributions φk|k−1 et φk sont des fonctions des observations ; pour alleger lesnotations, cette dependance n’est pas indiquee explicitement. Nous notons Lν,n la vraisemblance desobservations, definie comme la distribution du vecteur des observations Y0:n. Notons qk la distributionde Xk+1 conditionnelle a Xk = x : dans le modele lineaire gaussien considere ici, cette loi admet unedensite gaussienne, de moyenne Akx, et de covariance RkR

tk. De facon plus precise, pour toute fonction

f : Rdx → R+ :

E [f(Xk+1)|Xk = xk] =

∫f(Akxk +Rku)φ(u)du =

∫f(x′)qk(x, x

′)dx′ ,

ou φ(u) est la densite d’une loi N(0, I) et

q(x, ·) = N(Akx,RkRtk) . (11.12)

Nous notons de la meme facon gk la loi de l’observation Yk conditionnelle a l’etat Xk = x : dans lemodele lineaire gaussien, cette loi admet une densite gaussienne de moyenne Bkx et de covarianceSkS

tk. Plus precisement, pour toute fonction f : Rdy → R+,

E [f(Yk)|Xk = xk] =

∫f(Bkxk + Skv)φ(u)du =

∫f(y)gk(x, y)dy ,

ougk(x, y) = N(Bkx, SkS

tk) .

156

Page 158: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En utilisant ces notations et les relations d’independance conditionnelles du modele lineaire gaussien,la loi de prediction et de filtrage sont donnees pour k ≥ 1 et toute fonction f : Rdx → R+,

φν,k|k−1(f)def= (Lν,k−1)−1

∫∫αν,k−1(xk−1)qk−1(xk−1, xk)f(xk) (11.13)

φν,k(f)def= (Lν,k)

−1∫∫

αν,k(xk)f(xk) (11.14)

ou αk est la fonction donnee par

αν,k(xk) =

∫· · ·∫ν(dx0)g0(x0, Y0)

k∏i=1

qi−1(xi−1, xi)gi(xi, Yi)dx0:k−1 (11.15)

et Lν,k est la vraisemblance des k premieres observations definie par

Lν,k =

∫αν,k(xk)dxk . (11.16)

En utilisant les definitions precedentes, il est possible de calculer de facon recursive les lois predictiveet de filtrage. Remarquons en effet que, pour tout k ≥ 1,

φν,k(f) = (Lν,k)−1∫αν,k(xk)f(xk)dxk

= (Lν,k)−1∫∫

αν,k−1(xk−1)qk−1(xk−1, xk)g(xk, Yk)f(xk)dxk−1:k ,

=

(Lν,k−1

Lν,k

)∫φν,k|k−1(xk)gk(xk, Yk)f(xk)dxk . (11.17)

Cette relation montre qu’il est possible de calculer de deduire la loi de filtrage a la date k de la loi deprediction. De la meme facon,

φν,k+1|k(f) = (Lν,k)−1∫∫

αν,k(xk)q(xk, xk+1)f(xk+1)dxk:k+1

=

∫∫φν,k(xk)qk(xk, xk+1)f(xk+1)dxk:k+1 . (11.18)

En appliquant successivement les equations (11.17) et (11.18), on obtient une formule recursive permet-tant de calculer les lois de prediction et de filtrage pour tous les indices temporels. Ces formules sontvalables de facon tout a fait generale (et s’etendent par exemple au cas ou les bruits d’etats et de me-sure sont des suites de variables aleatoires independantes dont la distribution n’est pas necessairementgaussienne).

Dans le modele lineaire gaussien, les distributions de prediction et de filtrage sont gaussiennes etnous notons Xν,k|k−1 et Xν,k|k les moyennes des distributions de prediction et de filtrage et Σν,k|k−1

et Σν,k|k les covariances associees :

φν,k|k−1 = N(Xν,k|k−1,Σν,k|k−1

), (11.19)

φν,k = N(Xν,k|k,Σν,k|k

), (11.20)

157

Page 159: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Le lemme elementaire suivant est tres utile pour calculer la distribution des lois de prediction et defiltrage dans le modele lineaire Gaussien.

Proposition 11.2.1 (Conditionnement dans le modele lineaire gaussien)Soit X et V de vecteurs gaussiens independants verifiant E X = µX , Cov(X) = ΣX , et Cov(V ) =ΣV . Supposons que E V = 0. Considerons le modele

Y = BX + V , (11.21)

ou B est une matrice (deterministe) de dimension appropriee. Supposons de plus que BΣXBt + ΣV

est une matrice de rang complet (inversible). Alors

E [X|Y ] = E X+ Cov(X,Y ) Cov(Y )−1 (Y − E Y ) (11.22)

= µX + ΣXBtBΣXB

t + ΣV

−1(Y −BµX)

et

Cov(X | Y ) = Cov(X − E [X|Y ]) = E

(X − E [X|Y ])Xt

(11.23)

= ΣX − ΣXBtBΣXB

t + ΣV

−1BΣX .

Demonstration Notons par X le membre de droite de l’equation (11.22). Nous avons

X − X = X − E X − Cov(X,Y )Cov(Y )−1(Y − E Y ) ,

ce qui montre que

Cov(X − X, Y ) = Cov(X,Y )− Cov(X,Y )Cov(Y )−1 Cov(Y ) = 0 . (11.24)

Les vecteurs aleatoires Y et X − X sont donc conjointement Gaussiens (ce sont des transforma-tions lineaires de vecteurs gaussiens) et ils sont decorreles. Par consequent, Y et X − X sont aussiindependants. En ecrivant

X = X + (X − X) ,

ou X est σ(Y )-mesurable (combinaison lineaire des composantes du vecteur Y ) et X − X estindependant de X, on verifie alors aisement que X = E [X|Y ] et que, de plus,

Cov (X | Y )def= Cov

[(X − X)(X − X)′

∣∣∣ Y ] = Cov(X − X) .

Finalement, nous obtenons (11.23) en remarquant que

Cov(X − X) = E

(X − X)(X − X)t

= E

(X − X)Xt,

en utilisant (11.24) et le fait que X est une transformation lineaire de Y .

Pour le modele lineaire Gaussien, la proposition 11.2.1 implique en particulier que les moyennes aposteriori Xν,k|k−1 et Xν,k|k dependent des observations (sont des combinaisons lineaires des observa-tions passees), mais que les matrices de covariance Σν,k|k−1 et Σν,k|k sont entierement determinees parla donnee du modele (elles ne dependent pas des observations et pourraient donc etre calculees horsligne).

158

Page 160: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Proposition 11.2.2 (Loi de filtrage dans le modele lineaire gaussien)Les moyennes et covariance et de prediction peuvent etre mises a jour recursivement de la faconsuivante : pour k ≥ 0.

Filtrage :

Xk|k = Xk|k−1 + Σk|k−1Btk(BkΣk|k−1B

tk + SkS

tk)−1(Yk −BkXk|k−1) , (11.25)

Σk|k = Σk|k−1 − Σk|k−1Btk(BkΣk|k−1B

tk + SkS

tk)−1BkΣk|k−1 , (11.26)

avec les conventions X0|−1 = 0 et Σ0|−1 = Σν .

Prediction :

Xk+1|k = AkXk|k , (11.27)

Σk+1|k = AkΣk|kAtk +RkR

tk , (11.28)

Demonstration Considerons tout d’abord (11.25) et (11.26). L’etat est distribue suivant Xk ∼N(Xk|k−1,Σk|k−1) et l’observation est donnee par :

Yk = BkXk + Vk ,

ou Vk ∼ N(0, SkStk) est independant de Xk. Les equations (11.25) et (11.26) decoulent directement de

la proposition Proposition 11.2.1.Les equations (11.27) et (11.28) sont obtenues en calculant la moyenne et la covariance de

Xk+1 = AkXk +RkUk

ou Xk et Uk sont independants et distribues respectivement suivant les lois N(Xk|k,Σk|k) et N(0, I).

11.3 Lissage dans le modele lineaire Gaussien

Nous notons par Xk|n et Σk|n la moyenne et la covariance de la distribution de lissage φν,k|n. Pour

toute fonction f : Rdx → R+ et tout k ∈ 0, . . . , n, la loi de filtrage est donnee par

φν,k|n(f) = (Lν,n)−1∫αν,k(xk)f(xk)βk|n(xk)dxk , (11.29)

=

∫αν,k(xk)f(xk)βk|n(xk)dxk∫αν,k(xk)βk|n(xk)dxk

, (11.30)

ou βk|n est la fonction retrograde definie, pour k ∈ 0, n− 1 par

βk|n(xk) =

∫· · ·∫qk(xk, xk+1)gk+1(xk+1, Yk+1)

n∏i=k+2

qi−1(xi−1, xi)gi(xi, Yi) . (11.31)

Il est interessant de remarquer que la fonction βk|n peut etre calculer recursivement dans le sensretrograde, i.e. pour tout k ∈ 0, . . . , n− 1

βk|n(xk) =

∫qk(xk, xk+1)gk+1(xk+1, Yk+1)βk+1|n(xk+1)dxk+1 , (11.32)

159

Page 161: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou, par convention, nous avons pose βn|n ≡ 1. En utilisant cette relation dans l’expression precedentede la loi de lissage, nous obtenons une equation recursive elle aussi retrograde de mise a jour de la loide lissage

φν,k|n(f)def=

1

Lν,n

∫αν,k(xk)f(xk)βk|n(xk)dxk

=1

Lν,n

∫αν,k(xk)

αν,k+1(xk+1)f(xk)qk(xk, xk+1)gk+1(xk+1, Yk+1)βk+1|n(xk+1)dxk:k+1 (11.33)

=

∫∫Bν,k(xk+1, xk)φν,k+1|n(xk+1)f(xk)dxk:k+1 , (11.34)

ou Bν,k est le noyau retrograde defini par

Bν,k(xk+1, xk) =αν,k(xk)qk(xk, xk+1)gk+1(xk+1, Yk+1)

αν,k+1(xk+1)(11.35)

=φν,k|n(xk)qk(xk, xk+1)gk+1(xk+1, Yk+1)∫

φν,k|n(xk)qk(xk, xk+1)gk+1(xk+1, Yk+1)qk(xk, xk+1)gk+1(xk+1, Yk+1)dxk. (11.36)

En utilisant la formule elementaire des esperances conditionnelles, nous avons pour toute fonction fnon-negative et tout entier k ∈ 0, . . . , n− 1,

Eν [f(Xk)|Y0:n] = E [E [f(Xk)|Xk+1, Y0:n]|Y0:n]

=

∫φk+1|n(dxk+1)E [f(Xk)|Xk+1 = xk+1, Y0:n] . (11.37)

Par consequent, en identifiant (11.37) et (11.34), nous obtenons

Eν [f(Xk)|Xk+1 = xk+1, Y0:n] =

∫f(xk)Bν,k(xk+1, xk)dxk (11.38)

qui est donc un noyau retrograde.L’algorithme de lissage permet de calculer ces quantites recursivement, en procedant dans le sens

inverse du temps (ou sens retrograde). Remarquons en effet que la loi de lissage pour k = n coincideavec la loi de filtrage. L’idee est de deduire, pour k = 0, . . . , n − 1 recursivement la moyenne Xk|n et

la covariance Σk|n de la loi de lissage a partir de Xk+1|n et Σk+1|n.Bν,k(xk+1, ·) est egal a la loi de Xk conditionnelle a Xk+1 = xk+1 dans le modele

Xk+1 = AkXk +RkUk ,

ou Xk ∼ N(Xk|k,Σk|k) et Uk ∼ N(0, I) et est independant de Xk. En utilisant la Proposition 11.2.1,Bν,k(xk+1, ·) est une loi gaussienne de moyenne et de covariance donnees respectivement par

Xk|k + Σk|kAtk(AkΣk|kA

tk +RkR

tk)−1(xk+1 −AkXk|k) , (11.39)

etΣk|k − Σk|kA

tk(AkΣk|kA

tk +RkR

tk)−1AkΣk|k . (11.40)

160

Page 162: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La formule de mise a jour retrograde des moyennes et des covariances de la loi de lissage est doncdonnee par :

Xk|n = Xk|k + Σk|kAtkMk(Xk+1|n −AkXk|k) , (11.41)

Σk|n = Σk|k − Σk|kAtkMkAkΣk|k + Σk|kA

tkMkΣk+1|nMkAkΣk|k , (11.42)

ouMk = (AkΣk|kA

tk +RkR

tk)−1 .

Les recursions donnees ci-dessus correspondent a l’algorithme de lissage de Rauch, Tung et StriebelRauch et al. [1965].

11.4 Le filtre de Kalman

L’approche que nous avons adopte permet d’obtenir de facon elementaire les distributions deprediction et de filtrage.

Nous allons proceder en nous appuyant sur la theorie de la prediction lineaire optimale (au sensdu risque quadratique). Le point essentiel est que les equations de mise de la loi de filtrage et delissage pourront, dans ce contexte, etre interpretees de facon geometrique en utilisant les proprietes(elementaires) de la projection dans l’espace des variables de carre integrable. Dans les modeles d’etatscette interpretation geometrique fournit un guide permettant le developpement d’algorithmes. Deplus, l’approche que nous allons developper n’est plus limitee aux simples modeles gaussiens, maiss’appliquent a tous les modeles d’etats lineaires pour lesquels les lois des bruit d’etats et de mesurepossedent des moments d’ordre 2.

Prediction lineaire optimale

Nous rappelons dans ce paragraphe les elements essentiels sur la projection lineaire dans L2 quenous exploiterons dans la suite de notre expose. Soit Y0, . . . , Yk et X des elements de L2(Ω,F ,P). Noussupposons pour dans un premier temps que Y0, . . . , Yk et X sont des variables aleatoires scalaires. Lepredicteur lineaire optimal de X etant donnes Y0, . . . , Yk est la projection lineaire dans L2 de lavariable aleatoire X sur l’espace engendre par les variables Y0, . . . , Yk et la variable constante 1,

span(1, Y0, . . . , Yk)def=

Y : Y = µ+

k∑i=0

αiYi, µ, α0, . . . , αk ∈ R

.

Nous noterons le predicteur lineaire optimal par proj (X| 1, Y0, . . . , Yk), ou plus simplement par Xdans les situations ou il n’y a pas de confusion possible sur la definition de l’espace sur laquelle esteffectuee la projection.

La caracterisation de la projection dans les espaces de Hilbert montre que X satisfait les conditions

E

(X − X)Y

= 0 pour tout Y ∈ span(1, Y0, . . . , Yk) .

Comme 1, Y0, . . . , Yk est une famille generatrice de span(1, Y0, . . . , Yk), cette condition peut etre reecritede facon equivalente :

E

(X − X)1

= 0 et E

(X − X)Yi

= 0, pour tout i = 0, . . . , k .

161

Page 163: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Les notations X − X ⊥ span(1, Y0, . . . , Yk) et X − X ⊥ Yi seront aussi utilisee pour indiquer lesrelations d’orthogonalite (dans l’espace L2(Ω,F ,P)). Comme X ∈ span(1, Y0, . . . , Yk), cette variables’ecrit comme une combinaison lineaire des variables 1, X1, . . . , Xk

X = µ+ ϕ0(Y0 − E Y0) + . . .+ ϕk(Yk − E Yk) (11.43)

pour des facteurs µ, ϕ0, . . . , ϕk scalaires. En notant par Γk la matrice [Cov(Yi, Yj)]0≤i,j≤k et γk levecteur [Cov(X,Y0), . . . ,Cov(X,Yk)]

t, les coefficients definissant le predicteur lineaire optimal sontsolutions de l’equation

µ = E X and Γnϕ = γk, where ϕ = (ϕ1, . . . , ϕk)t . (11.44)

Le theoreme de projection dans les espaces de Hilbert assure que la projection X est unique. Sila matrice Γn est inversible, les coefficients de projection ϕ sont eux aussi definis de facon uniqueen resolvant le systeme lineaire precedent. Si la matrice de covariance Γk est singuliere, le systemed’equation (11.44) admet une infinite de solutions, mais toutes ces solutions definissent le memepredicteur lineaire optimal. Une consequence immediate de la Proposition ???? est que la matrice decovariance de l’erreur de prediction a pour expression

Cov(X − X) = EX(X − X)

= Cov(X)− Cov(X) . (11.45)

Remarque 11.2 Comme E (Yi − E (Yi))1 = 0 pour i = 0, . . . , k, la projection sur l’espacespan(1, Y0, . . . , Yk) peut etre decomposee sous la forme de la somme de la projection sur l’espaceengendree par la variable aleatoire constante span(1), qui est egale a E X, et de la projection surl’espace engendre par les variables aleatoires Y0, . . . , Yk recentrees, span(Y0−E Y0 , . . . , Yk−E Yk).En suivant (11.44), la projection de la variable aleatoire X est obtenue en projetant tout d’abord surles variables aleatoires recentrees Yi − E Yi puis en ajoutant au resultat la moyenne E X de lavariable aleatoire X.

Par souci de simplicite, nous supposerons dans la suite que les variables sont toutes de moyennenulle (l’inclusion des moyennes etant triviale !).

Nous etendons maintenant les resultats precedents au cas de variables aleatoires vectorielles

Definition 11.4.1 (Predicteur lineaire optimal)Soit X = [X(1), . . . , X(dx)]t un vecteur aleatoire de dimension dx et Y0, . . . , Yk une famille de vecteursaleatoires de dimensions dy, elements de L2(Ω,F ,P). Nous supposons de plus que E X = 0 etE Yi = 0 pour i = 0, . . . , k. Le predicteur lineaire optimal du vecteur aleatoire X etant donne lesobservations Y0, . . . , Yk est le vecteur [X(1), . . . , X(dx)]t dont les composantes X(j), j = 1, . . . , dx,sont egales aux projections au sens de L2 des variables aleatoires X(j) sur les espaces lineaires

span(Y1, . . . , Ydy)def= span

(Yi(j)0≤i≤k,1≤j≤dy

).

Nous notonsX = proj (X|Y0, . . . , Yk) = proj (X| span(Y0, . . . , Yk)) .

162

Page 164: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La definition 11.4.1 montre que la jeme composante X(j) du vecteur X est projete sur l’espaceengendre par les composantes des vecteurs Y1, . . . , Yk,Y : Y =

k∑i=0

dy∑j=1

αi,jYi(j) , αi,j ∈ R

.

En procedant comme pour les variables scalaires, la projection X peut etre ecrite

X =k∑i=0

ΦiYi ,

ou Φ0, . . . ,Φk sont des matrices dx × dy. Les relations d’orthogonalite qui caracterisent la projectionde X se resument a

k∑i=0

ΦiEYiY

tj

= E

XY t

j

for j = 0, . . . , k , (11.46)

ou EYiY

tj

et E

XY t

j

sont des matrices de dimension dy × dy et dx × dy definies par[

EYiY

tj

]l1l2

= E Yi(l1)Yj(l2) ,[EXY t

j

]l1l2

= E X(l1)Yj(l2) .

Le theoreme de projection assure qu’il existe au moins une solution a ce systeme d’equation. Cettesolution est unique si la matrice dy(k + 1)× dy(k + 1)

Γk =

EY0Y

t0

· · · E

Y0Y

tk

...

...EYnY

t0

· · · E

YnY

tn

est inversible. Comme dans le cas scalaire, la matrice de covariance de l’erreur de prediction s’exprimede la facon suivante

Cov(X − X) = EX(X − X)t

= E

XXt

− E

XXt

. (11.47)

Notons que, pour toute matrice A (deterministe) de dimension appropriee

proj (AX|Y0, . . . , Yk) = Aproj (X|Y0, . . . , Yk) . (11.48)

Cette relation traduit simplement le fait que l’operateur de projection dans les espaces de Hilbert estlineaire.

Remarque 11.3 Lorsque k = 0, et que la matrice de covariance EY Y t

est inversible, le predicteur

lineaire optimal X en fonction Y a pour expression

X = EXY t

[EY Y t

]−1Y , (11.49)

Cov(X − X) = EX(X − X)t

= E

XXt

− E

XY t

[EY Y t

]−1 EY Xt

.

L’equation (11.49) est equivalente aux equations (11.22) et (11.23), sous l’hypothese que X est unevariable a moyenne nulle. Pour un vecteur aleatoire gaussien, le predicteur lineaire optimal et lacovariance de l’erreur de prediction coincide avec la moyenne et la variance de la loi de X conditionnellea Y .

163

Page 165: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Innovation

Considerons l’espace span(Y0, . . . , Yj) engendre par les observations jusqu’a l’instant j. Par ana-logie avec la procedure d’orthogonalisation de Gram-Schmidt, nous pouvons remplacer les vecteursaleatoires Y0, . . . , Yj par un ensemble de vecteurs aleatoires ε0, . . . , εj decorreles dont les compo-santes engendrent le meme sous-espace de L2 :

span(Y0, . . . , Yj) = span(ε0, . . . , εj) pour tout j = 0, . . . , k . (11.50)

La construction de ces variables aleatoires peut etre effectuee de facon recursive. Nous posons ε0 = Y0

puis nous definissons par recurrence la suite de vecteurs aleatoires, pour j ≥ 0

εj+1 = Yj+1 − proj (Yj+1| span(Y0, . . . , Yj)) (11.51)

La projection de Yj+1 sur span(Y0, . . . , Yj) = span(ε0, . . . , εj) a une forme explicite car, par construc-tion, les vecteurs aleatoires ε0, . . . , εj sont decorreles :

proj (Yj+1| span(ε0, . . . , εj)) =

j∑i=0

EYj+1ε

ti

[Eεiε

ti

]−1εi , (11.52)

Cette relation conduit a la formule recursive :

εj+1 = Yj+1 −j∑i=0

EYj+1ε

ti

[Eεiε

ti

]−1εi . (11.53)

Le processus εj , j ≥ 0 est appelee innovation (ou innovation lineaire) du processus Yj , j ≥ 0. Lasuite d’innovation εjj≥0, definie recursivement par l’equation (11.53) est decorrelee et verifie, pourtout j ≥ 0,

εj ∈ span(Y0, . . . , Yj) and Yj ∈ span(ε0, . . . , εj) . (11.54)

Pour eviter la degenerescence de (11.52) et (11.53), nous devons supposer que la matrice de

covariance Eεjε

tj

est definie positive.

Definition 11.4.2 (Processus non deterministe)Le processus Ykk≥0 est non-deterministe si pour tout j ≥ 0 la matrice

Cov [Yj+1 − proj (Yj+1|Y0, . . . , Yj)]

est definie positive.

La suite d’innovation εkk≥0 est tres utile pour obtenir les formules de mise a jour des moyennes etcovariance de prediction et de filtrage. Soit Z ∈ L2(Ω,F ,P) et soit Z|k le predicteur lineaire optimal

de Z etant donne les observations jusqu’a l’instant k. Z|k verifie la recursion

Z|k =

k∑i=0

EZεti [

Eεiε

ti

]−1εi (11.55)

= Z|k−1 + EZεtk

[Eεkε

tk

]−1εk .

164

Page 166: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La matrice de covariance de l’erreur de prediction verifie

Cov(Z − Z|k) = Cov(Z)− Cov(Z|k) (11.56)

= Cov(Z)−k∑i=0

EZεti [

Eεiε

ti

]−1 EεiZ

t

= Cov(Z)− Cov(Z|k−1)− EZεtk

[Eεkε

tk

]−1 EεkZ

t.

11.5 Equations de prediction et de filtrage

Filtre de Kalman

Considerons le modele d’etat

Xk+1 = AkXk +RkUk, (11.57)

Yk = BkXk + SkVk, (11.58)

ou le bruit d’etat Ukk≥0 et de mesure Vkk≥0 sont des bruits blancs faibles (moyenne nulle etcovariance identite), decorreles. L’etat initial X0 est suppose decorrele des bruits d’etats et de mesureUkk≥0 and Vkk≥0 et est tel que E X0 = 0 et Cov(X0) = Σν . Nous supposons aussi que leprocessus Ykk≥0 est non deterministe (definition 11.4.2). L’equation (11.58) montre qu’une conditionsuffisante pour que les observations soient non deterministes est que la matrice de covariance du bruitSkS

tk soit definie positive pour tout k ≥ 0.

Pour tout processus scalaire ou vectoriel Zkk≥0, nous notons Zk|n la projection de Zk sur l’espace

lineaire engendre par les vecteurs d’observations Y0, . . . , Yn. Avec cette convention, Xk|k−1 correspond

au predicteur lineaire optimal (a un pas) de l’etat et Yk|k−1 a la prediction lineaire optimale del’observation etant donne l’etat. Le processus d’innovation εk introduit au paragraphe precedent estpar definition egal a la difference Yk − Yk|k−1 entre l’observation a la date k et sa prediction lineaireoptimale. Nous utiliserons de plus les notations suivantes :

Γkdef= Cov(εk) and Σk|n

def= Cov(Xk − Xk|n) .

En projetant (11.58) sur span(Y0, . . . , Yk−1) nous obtenons

Yk|k−1 = BkXk|k−1 + SkVk|k−1 . (11.59)

Sous les hypotheses que nous avons faites sur le modele d’etat EVkY

tj

= 0 pour j = 0, . . . , k − 1,

de telle sorte que Vk|k−1 = 0. Par consequent

εk = Yk − Yk|k−1 = Yk −BkXk|k−1 . (11.60)

Nous appliquons ensuite la decomposition (11.55) au vecteur aleatoire Xk+1 pour obtenir l’equationde mise a jour du predicteur. Equation (11.55) appliquee a Z = Xk+1 implique

Xk+1|k = Xk+1|k−1 + EXk+1ε

tk

[Eεkε

tk

]−1εk . (11.61)

165

Page 167: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En projetant l’equation d’etat (11.57) sur l’espace engendre par Y0, . . . , Yk−1, nous obtenons

Xk+1|k−1 = AkXk|k−1 +RkUk|k−1 = AkXk|k−1 , (11.62)

ou nous avons utilise que EUkY

tj

= 0 pour les indices j = 0, . . . , k − 1. Par consequent, (11.61)

s’exprimeXk+1|k = AkXk|k−1 +Hkεk , (11.63)

ou Hk, est appele le gain de Kalman donne par

Hkdef= E

Xk+1ε

tk

Γ−1k . (11.64)

Pour calculer le gain de Kalman, notons que

εk = Yk −BkXk|k−1 = Bk(Xk − Xk|k−1) + SkVk . (11.65)

En utilisant la relation EVk(Xk − Xk|k−1)t

= 0, (11.65) implique que

Γk = BkΣk|k−1Btk + SkS

tk , (11.66)

ou Σk|k−1 est la covariance de l’erreur de prediction Xk − Xk|k−1. En utilisant le meme principe,

EXk+1ε

tk

= AkE

Xkε

tk

+RkE

Ukε

tk

= AkΣk|k−1B

tk +RkE

Uk(Xk − Xk|k−1)t

Btk

= AkΣk|k−1Btk , (11.67)

ou nous avons utilise

Uk ⊥ span(X0, U0, . . . , Uk−1, V0, . . . , Vk−1) ⊇ span(Xk, Y0, . . . , Yk−1) .

En combinant (11.66) et (11.67) conduit a l’expression suivante du gain de Kalman :

Hk = AkΣk|k−1Btk

BkΣk|k−1B

tk + SkS

tk

−1. (11.68)

Finalement, nous devons evaluer la covariance de l’erreur de prediction Σk+1|k. En utilisantl’equation d’etat Xk+1 = AkXk +RkUk et E

XkU

tk

= 0, nous obtenons

Cov(Xk+1) = Ak Cov(Xk)Atk +RkR

tk . (11.69)

De facon similaire, le predicteur lineaire optimal a la date k Xk|k−1 et l’innovation a la date k εk sontaussi decorrelees. Par consequent,

Cov(Xk+1|k) = Ak Cov(Xk|k−1)Atk +HkΓkHtk . (11.70)

En utilisant (11.47), nous obtenons

Σk+1|k = Cov(Xk+1)− Cov(Xk+1|k)

= AkΣk|k−1Atk +RkR

tk −HkΓkH

tk , (11.71)

en soustrayant (11.70) de (11.69). L’equation (11.71) est appelee equation de Riccati. En rassem-blant (11.60), (11.63), (11.66), (11.68), et (11.71), nous obtenons la forme classique que filtre deKalman

166

Page 168: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Algorithme 11.1 (Recursion de Kalman pour la prediction)

Initialisation : X0|−1 = 0 et Σ0|−1 = Σν .

Recursion : Pour k = 0, . . . n,

εk = Yk −BkXk|k−1 , innovation (11.72)

Γk = BkΣk|k−1Btk + SkS

tk , cov. innovation (11.73)

Hk = AkΣk|k−1BtkΓ−1k , Gain de Kalman (11.74)

Xk+1|k = AkXk|k−1 +Hkεk , predict. etat (11.75)

Σk+1|k = (Ak −HkBk)Σk|k−1Atk +RkR

tk . cov. erreur de prediction (11.76)

Remarque 11.4 L’evaluation de la vraisemblance pour un modele d’etat general est difficile. Pour unmodele lineaire gaussien, εk et Γk determinent completement la densite de probabilite de l’observationYk conditionnellement aux observations Y0, . . . , Yk−1,

(2π)−dy/2|Γk|−1/2 exp

−1

2εtkΓ−1k εk

(11.77)

ou dy est la dimension du vecteur d’observations.Par consequent, la log-vraisemblance du vecteurd’observations jusqu’a la date n peut etre obtenu de la facon suivante

`n = −(n+ 1)dy2

log(2π)− 1

2

n∑k=0

log |Γk|+ εtkΓ

−1k εk

, (11.78)

qui peut etre calcule (recursivement en n) en utilisant l’algorithme 11.1. L’equation (11.78) s’averetres importante pour l’estimation des parametres dans un modele d’etat.

11.2 Exemple (Filtrage d’une marche aleatoire observee en presence de bruit):Afin d’illustrer l’utilisation de l’algorithme 11.1 sur un exemple elementaire, considerons une marchealeatoire discrete observee en presence de bruit

Xk+1 = Xk + σuUk ,

Yk = Xk + σvVk .

Dans cet exemple, toutes les variables sont scalaires. En appliquant les equations de Kalman (pour laprediction), nous obtenons, pour k ≥ 1,

Xk+1|k = Xk|k−1 +Σk|k−1

Σk|k−1 + σ2v

(Yk − Xk|k−1

)(11.79)

= (1− ak)Xk|k−1 + akYk ,

Σk+1|k = Σk|k−1 + σ2u −

Σ2k|k−1

Σk|k−1 + σ2v

=Σk|k−1σ

2v

Σk|k−1 + σ2v

+ σ2u

def= f(Σk|k−1) , (11.80)

167

Page 169: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

ou nous avons note ak = Σk|k−1/(Σk|k−1 + σ2v). La recursion est initialisee par X0|−1 = 0 et Σ0|−1 = Σν .

Dans ce cas particulier, les matrices de transition d’etats et d’observations sont independantes du temps etil est interessant de considerer le comportement en temps long du filtre de Kalman. Il est facile de montrerque la matrice de covariance de prediction converge vers une limite Σ, qui est une solution de l’equation

Σ = f(Σ) =Σσ2

v

Σ + σ2v

+ σ2u .

En resolvant cette solution (en prenant la solution positive) nous obtenons

Σ =1

2

(σ2u +

√σ4u + 4σ2

uσ2v

).

Pour M < ∞, sup0≤Σ≤M |f(Σ)| < 1. De plus, pour k ≥ 1, (Σk+1|k − Σ∞)(Σk|k−1 − Σ∞) ≥ 0. Cesremarques montrent que Σk+1|k appartient pour tout k a l’intervalle Σk|k−1 et Σ∞, et en particulierΣk+1|k ≤ max(Σ1|0,Σ∞). Comme le coefficient de Lipshitz de f sur tout ensemble borne de R+ est stric-tement inferieur a 1, independamment de la valeur de Σν , et donc les coefficients ak = Σk|k−1/(Σk|k−1+σ2

v)converge vers

a∞ =Σ∞

Σ∞ + σ2v

,

et l’erreur quadratique (Yk+1 − Yk+1|k) converge vers Σ∞ + σ2v .

Equations de Kalman pour le filtre

L’algorithme 11.1 permet d’evaluer de facon recursive le predicteur lineaire optimal de l’etat Xk|k−1

et la covariance de l’erreur de prediction Σk|k−1. Il est bien entendu possible d’obtenir des equations

similaires pour la moyenne de la distribution de filtrage Xk|k et la covariance associee Σk|k.Nous utilisons cette fois encore l’equation (11.55), que nous appliquons avec Z = Xk, pour obtenir

Xk|k = Xk|k−1 + EXkε

tk

Γ−1k εk = Xk|k−1 +Kkεk (11.81)

ou Kkdef= Cov(Xk, εk)Γ

−1k est le gain de Kalman (pour le filtrage). Le membre de droite de (11.81)

peut etre reecrit de la facon suivante

Xk|k−1 = Ak−1Xk−1|k−1 +Rk−1Uk−1|k−1 = Ak−1Xk−1|k−1, (11.82)

ou nous avons utilise

Uk−1 ⊥ span(X0, U0, . . . , Uk−2) ⊇ span(Y0, . . . , Yk−1) .

De facon similaire, le second terme du membre de droite de (11.81) peut etre ecrit de facon equivalente

Kk = Σk|k−1BtkΓ−1k , (11.83)

car εk = Bk(Xk − Xk|k−1) + SkVk et EXkV

tk

= 0.

168

Page 170: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Pour obtenir une recursion complete, il reste a relier Σk|k et Σk|k−1. L’equation d’etat Xk =

Ak−1Xk−1 +Rk−1Uk−1 et l’equation de prediction d’etat Xk|k−1 = Ak−1Xk−1|k−1 implique que

Cov(Xk) = Ak−1 Cov(Xk−1)Atk−1 +Rk−1Rtk−1 ,

Cov(Xk|k−1) = Ak−1 Cov(Xk−1|k−1)Atk−1 ,

ce qui, combine avec (11.47), produit

Σk|k−1 = Ak−1Σk−1|k−1Atk−1 +Rk−1R

tk−1 . (11.84)

De facon similaire, la recursion d’etat Xk = Ak−1Xk−1 + Rk−1Uk−1 et l’equation de mise a jour dufiltre Xk|k = Ak−1Xk−1|k−1 +Kkεk implique que

Σk|k = Ak−1Σk−1|k−1Atk−1 +Rk−1R

tk−1 −KkΓkK

tk . (11.85)

En rassemblant ces differentes recursions, nous obtenons les equations de Kalman pour le filtre

Algorithme 11.2 (Filtrage de Kalman) Pour k = 0, . . . n– Si k = 0, posons Xk|k−1 = 0 et Σk|k−1 = Σν ; autrement

Xk|k−1 = Ak−1Xk−1|k−1 ,

Σk|k−1 = Ak−1Σk−1|k−1Atk−1 +Rk−1R

tk−1 .

– Mise a jour

εk = Yk −BkXk|k−1 , innovation (11.86)

Γk = BkΣk|k−1Btk + SkS

tk , cov. innovation (11.87)

Kk = Σk|k−1BtkΓ−1k , gain de Kalman (filtre) (11.88)

Xk|k = Xk|k−1 +Kkεk , estim. moy. du filtre (11.89)

Σk|k = Σk|k−1 −KkBkΣk|k−1 . cov. filtre (11.90)

Remarque 11.5 Les adaptations necessaires pour transformer les recursions de prediction et de filtrageau cas ou les bruits d’etats et de mesures ne sont pas centres sont directs. L’idee est de definir unmodele d’etat sur les variables centrees X∗k = Xk−E Xk, U∗k = Uk−E Uk, Y ∗k = Yk−E Yk, andV ∗k = Vk−E Vk ; les moyennes des variables d’etats et des mesures peuvent etre calcules directementa partir des equations d’etats et de mesure

E Xk+1 = AkE Xk+RkE Uk ,E Yk = BkE Xk+ SkE Vk .

Il est clair que

X∗k+1 = Xk+1 − E Xk+1 = Ak(Xk − E Xk) +Rk(Uk − E Uk)= AkX

∗k +RkU

∗k

169

Page 171: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et de facon similaireY ∗k = Yk − E Yk = BkX

∗k + SkV

∗k .

Par consequent X∗k , Y ∗k k≥0 satisfont le modele (11.57)–(11.58) avec X∗0 = 0, E U∗k = 0 and

E V ∗k = 0. Les recursions de Kalman peuvent etre utilisees directement pour calculer X∗k|k−1, lepredicteur lineaire optimal de l’etat X∗k etant donne Y ∗0 , . . . , Y

∗k−1. Le predicteur lineaire optimal de

Xk etant donnes Y0, . . . , Yk−1 est alors

Xk|k−1 = X∗k|k−1 + E Xk .

Les equations de filtrage peuvent etre obtenus de facon similaire.

11.6 Lissage

Nous allons dans ce paragraphe deriver une seconde solution au probleme du lissage mais quioperera directement sur le bruit d’etat Uk plutot que directement sur le vecteur d’etat Xk. Nous allonsobtenir ainsi une autre forme de l’algorithme de lissage, qui va s’averer plus efficace numeriquementque l’algorithme RTS, est connu sur le nom de l’algorithme de lissage du bruit (disturbance smoother),et a ete introduit par De Jong [1988], Kohn and Ansley [1989], and Koopman [1993]. Ces differentsalgorithmes sont tres similaires a ceux derives par Bryson et Frazier Bryson and Frazier [1963]—voiraussi [Kailath et al., 2000, Section 10.2.2].

Pour k = 0, . . . , n − 1 nous notons Uk|n la moyenne de lissage du bruit d’etat, i.e., le predicteurlineaire optimal du bruit d’etat Uk en fonction des observations Y0, . . . , Yn. Nous notons Ξk|n la matricede covariance

Ξk|ndef= Cov(Uk − Uk|n) .

Nous allons tout d’abord donner la forme des recursions ; nous justifierons ensuite ces recursions

Algorithme 11.3 (Lissage du bruit d’etat) [Initialisation :]

Appliquer le filtre de Kalman (Algorithme 11.1) et memoriser pour k = 0, . . . , n les innovationsεk, l’inverse de la covariance de l’innovation Γ−1

k , et la covariance de prediction Σk|k−1, et

Λkdef= Ak −HkBk ,

ou Hk est le gain de Kalman (forme prediction).

Filtrage direct :Lissage arriere : Pour k = n− 1, . . . , 0, calculer

pk =

BtnΓ−1

n εn for k = n− 1,

Btk+1Γ−1

k+1εk+1 + Λtk+1pk+1 autrement,(11.91)

Ck =

BtnΓ−1

n Bn for k = n− 1,

Btk+1Γ−1

k+1Bk+1 + Λtk+1Ck+1Λk+1 autrement,(11.92)

Uk|n = Rtkpk , (11.93)

Ξk|n = I −RtkCkRk . (11.94)

170

Page 172: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Initialisation du lissage de l’etat : Calculer

X0|n = Σν

(Bt

0Γ−10 ε0 + Λt0p0

), (11.95)

Σ0|n = Σν − Σν

[Bt

0Γ−10 B0 + Λt0C0Λ0

]Σν . (11.96)

Lissage de l’etat : Pour k = 0, . . . n− 1,

Xk+1|n = AkXk|n +RkUk|n , (11.97)

Σk+1|n = AkΣk|nAtk +RkΞk|nR

tk

−AkΣk|k−1ΛtkCkRkRtk −RkRtkCkΛkΣk|k−1A

tk . (11.98)

L’algorithme 11.3 est assez complexe, comportant trois etapes. La premiere consiste a appliquer lesequations de Kalman (forme prediction). La seconde est une passe arriere pour obtenir les estimateurslisses du bruit de mesure. La troisieme etape consiste a calculer dans une passe avant les estimateursde lissage des etats en utilisant les estimateurs lisses du bruit d’etat. La preuve de la correction desrecursions ci-dessus est divisee en deux parties, correspondant aux deux dernieres etapes de l’algo-rithme.

Demonstration (Lissage arriere) Nous commencons par justifier les equations requises pour cal-culer le lissage du bruit d’etat Uk|n pour k = n− 1 a 0 (en decroissant). Comme precedemment, nousutiliserons la suite des innovations ε0, . . . , εn plutot que directement les observations Y0, . . . , Yn.En utilisant (11.55), nous obtenons :

Uk|n =n∑i=0

EUkε

ti

Γ−1i εi =

n∑i=k+1

EUkε

ti

Γ−1i εi , (11.99)

ou nous avons utilise la propriete

Uk ⊥ spanY0, . . . Yk = spanε0, . . . , εk ,

pour obtenir la deuxieme expression. Nous allons prouver par recurrence que pour i = k + 1, . . . , n,

EUk(Xi − Xi|i−1)t

=

Rtk , i = k + 1 ,

RtkΛtk+1 Λtk+2 . . . Λti−1 , i ≥ k + 2 ,

(11.100)

EUkε

ti

=

RtkB

tk+1 , i = k + 1 ,

RtkΛtk+1 Λtk+2 . . . Λti−1B

ti , i ≥ k + 2 .

(11.101)

Notons tout d’abord que

EUkε

tk+1

= E

Uk(Xk+1 − Xk+1|k)

tBtk+1

= EUkX

tk+1

Btk+1 = RtkB

tk+1 ,

en utilisant (11.60) et les relations d’orthogonalite Uk ⊥ Vk+1, Uk ⊥ span(Y0, . . . , Yk) et Uk ⊥ Xk.Supposons maintenant que les relations (11.100)–(11.101) sont satisfaites pour i ≥ k+1. En combinantl’equation d’etat (11.57) et l’equation de mise a jour du predicteur (11.63), nous obtenons

Xi+1 − Xi+1|i = Λi(Xi − Xi|i−1) +RiUi −HiSiVi . (11.102)

171

Page 173: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En utilisant EUkU

ti

= 0 et E

UkV

ti

= 0, l’hypothese de recurrence implique que

EUk(Xi+1 − Xi+1|i)

t

= EUk(Xi − Xi|i−1)t

Λti = RtkΛ

tk+1 Λtk+2 . . . Λti . (11.103)

En procedant comme dans le cas i = k ci-dessus, nous ecrivons

EUkε

ti+1

= E

Uk(Xi+1 − Xi+1|i)

tBti+1 = RtkΛ

tk+1 Λtk+2 . . . ΛtiB

ti+1 , (11.104)

qui, par recurrence, montre que (11.100)–(11.101) est verifie pour tous les indices i ≥ k + 1. Encombinant (11.101) et (11.99), nous obtenons

Uk|n = Rtk

(Btk+1Γ−1

k+1εk+1 +n∑

i=k+2

Λtk+1 . . .Λti−1B

tiΓ−1i εi

), (11.105)

ou le terme entre parenthese correspond a pk defini recursivement par la relation (11.91) : cecimontre (11.93).

Pour calculer la covariance Ξk|n de l’erreur Uk − Uk|n, nous appliquons Eq. (11.56) qui implique

Ξk|n = Cov(Uk)− Cov(Uk|n

)(11.106)

= I −n∑

i=k+1

EUkε

ti

Γ−1i E

εiU

tk

= I −Rtk

(Btk+1Γ−1

k+1Bk+1 +

n∑i=k+2

Λtk+1 . . . Λti−1BtiΓ−1i BiΛi−1 . . . Λk+1

)Rk ,

ou I est la matrice identite.

Demonstration (Lissage de l’etat) En utilisant une preuve par induction similaire a (11.100)–(11.101), nous obtenons

EXk(Xi − Xi|i−1)t

=

Σk|k−1 , i = k ,

Σk|k−1Λtk Λtk+1 . . . Λti−1 , i ≥ k + 1 ,(11.107)

EXkε

ti

=

Σk|k−1B

tk , i = k ,

Σk|k−1Λtk Λtk+1 . . . Λti−1Bti , i ≥ k + 1 ,

(11.108)

En utilisant (11.55), le predicteur lineaire optimal de l’etat initial X0 en fonction des observationsY0, . . . , Yn est donne par

X0|n =

n∑i=0

EX0ε

ti

Γ−1i εi . (11.109)

Une application directe de (11.108),

X0|n = Σν

(Bt

0Γ−10 ε0 +

n∑i=1

Λt0 . . . Λti−1BtiΓ−1i εi

), (11.110)

172

Page 174: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

montre (11.95). En procedant comme pour (11.106), l’expression de la covariance de l’erreurd’etat (11.96) se deduit de (11.56).

L’equation de mise a jour (11.97) est une consequence directe de la linearite de la projectioncombinee avec l’equation (11.57). Finalement, pour prouver (11.98), nous combinons l’equation (11.57)avec (11.97) pour obtenir

Cov(Xk+1 − Xk+1|n) = Cov[Ak(Xk − Xk|n) +Rk(Uk − Uk|n)] =

AkΣk|nAtk +RkΞk|nR

tk −AkE

XkU

tk|n

Rtk −RkE

Uk|nX

tk

Atk , (11.111)

ou nous avons utilise EXk|n(Uk − Uk|n)t

= 0 pour obtenir la seconde relation. Pour calculer

EXkU

tk|n

, nous utilisons (11.105), en ecrivant

EXkU

tk|n

= E

Xkε

tk+1

Γ−1k+1Bk+1Rk +

n∑i=k+2

EXkε

ti

Γ−1i BiΛi−1 . . . Λk+1Rk . (11.112)

Finalement, en invoquant (11.108), nous obtenons

EXkU

tk|n

= Σk|k−1ΛtkB

tk+1Γ−1

k+1Bk+1Rk

+n∑

i=k+2

Σk|k−1ΛtkΛtk+1 . . . Λti−1B

tiΓ−1i BiΛi−1 . . . Λk+1Rk ,

qui peut etre reecrit

EXkU

tk|n

= Σk|k−1ΛtkCkRk . (11.113)

L’equation (11.98) decoule de (11.111).

11.7 La methode a deux filtres

11.7.1 Parametrisation par la matrice d’information

En supposant que ΣV et Cov(Y ) = BtΣXB+ΣV sont des matrices de covariance de rang complet,la densite de X conditionnelle a Y , que nous notons dans ce paragraphe p(x|y) est, en appliquant laregle de Bayes, proportionnelle a la densite a priori p(x) de X et la densite conditionnelle p(y|x) del’observation Y conditionnelle a l’etat X,

p(x|y) ∝ exp

−1

2

[(y −Bx)tΣ−1

V (y −Bx) + (x− µX)tΣ−1X (x− µX)

], (11.114)

ou le symbole ∝ indique que les deux quantites apparaissant a droite et a gauche de l’expressionprecedente different d’une constante multiplicative qui ne depend pas de x. Notons que dans l’equationprecedente, cette constante est facile a calculer car p(x|y) est la densite d’une loi Gaussienne multidi-mensionnelle densite de probabilite. Nous pouvons calculer la densite conditionnelle p(x|y), en ecrivant

173

Page 175: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

le terme apparaissant dans l’exponentielle dans (11.114) comme une forme quadratique de la variablex :

p(x|y) ∝ exp

−1

2

[xt(BtΣ−1

V B + Σ−1X )x− xt(BtΣ−1

V y + Σ−1X µX)

− (BtΣ−1V y + Σ−1

X µX)tx]

, (11.115)

ou de facon equivalente

p(x|y) ∝ exp

−1

2

[(x− µX|Y )tΣ−1

X|Y (x− µX|Y )]

, (11.116)

avec

µX|Y = ΣX|Y(BtΣ−1

V y + Σ−1X µX

), (11.117)

ΣX|Y =(BtΣ−1

V B + Σ−1X

)−1. (11.118)

Les equations (11.118) et (11.117) sont equivalentes aux equations (11.23) et (11.22). Le fait que(11.23) et (11.118) coincide est une consequence directe du lemme d’inversion matriciel.

Il est interessant d’utiliser une parametrisation alternative utilisant l’inverse de la matrice decovariance Π = Σ−1 et le vecteur κ = Πµ. La matrice Π est appelee matrice d’information et (κ,Π)definissent la parametrisation information de la densite.

11.7.2 Le modele lineaire gaussien (Encore !)

Proposition 11.7.1Considerons le modele

Y = BX + V , (11.119)

ou B est une matrice deterministe et X et V sont des vecteurs Gaussiens independants verifiantκX = Cov(X)−1E X, ΠX = Cov(X)−1, ΠV = Cov(V )−1 et κV = E V = 0, Then

κX|Y = κX +BtΠV Y , (11.120)

ΠX|Y = ΠX +BtΠVB , (11.121)

ou κX|Y = Cov(X|Y )−1E [X|Y ] and ΠX|Y = Cov(X|Y )−1.

Les equations (11.120) et (11.121) sont des reecritures de (11.117) et (11.118), respectivement.Si les matrices ΠX , ΠV , ou ΠX|Y ne sont pas des matrices de rang complet, (11.120) et (11.121)

restent encore valides en utilisant le concept de distribution a priori impropre. Considerons l’equationEq. (11.114) et supposons que la fonction p(x), par exemple, est constante. Dans ce cas, (11.115) apour expression

p(x|y) ∝ exp

−1

2

[xt(BtΣ−1

V B)x− xt(BtΣ−1V y)− (BtΣ−1

V y)tx]

, (11.122)

174

Page 176: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

qui est (en tant que fonction de x) une densite gaussienne lorsque BtΣ−1V B est de rang complet. Bien

entendu, il faut interpreter cette formule avec une certaine precaution car il n’existe pas de densite deprobabilite p(x) sui soit constante sur X. Il s’agit, dans la terminologie des statistiques bayesiennes,d’une loi impropre. L’utilisation de telle loi est commune dans le cadre de la theorie de l’inferencebayesienne.

L’interpretation de (11.122) est que, en prenant une a priori impropre constant pour X, la moyennede X conditionnelle a Y est donnee par(

BtΣ−1V B

)−1BtΣ−1

V Y . (11.123)

Le message important est que (11.123) decoule de (11.120) en supposant que ΠX est la matrice nulleet que κX est le vecteur nul. Donc la Proposition 11.7.1 couvre aussi le cas ou la loi a priori sur X estimpropre, ce qui correspond a supposer que ΠX et κX sont egaux a 0. L’exemple suivant illustre unesituation un peu plus complexe :

11.3 Exemple:Considerons le modele (11.119) ou X est un vecteur aleatoire de dimension 2, Y est une variable scalaireet

B =(1 0

)et Cov(V ) = σ2 .

En utilisation la proposition 11.7.1 les parametres de la loi a posteriori sont donnes par

κX|Y = κX +

(σ−2Y

0

), (11.124)

ΠX|Y = ΠX +

(σ−2 0

0 0

). (11.125)

En particulier, si la loi a priori sur X est impropre constante, alors (11.124) et (11.125) montre que ladistribution a posteriori de la premiere composante de X conditionnelle a Y est gaussienne de moyenne Yet de variance σ2, mais que la loi a posteriori de la seconde composante est elle aussi impropre et constante.

L’exemple precedent illustre le fait important que les formules donnees dans la Proposition 11.7.1restent valables meme lorsque κX et ΠX est associe a une loi a priori impropre. La loi de X condi-tionnelle a X peut elle-meme etre impropre, mais les parametres ”information” de cette loi impropresont donnes par (11.120) et (11.121).

Nous utiliserons aussi le resultat suivant

Lemme 11.7.2

∫exp

−1

2

[(y −Bx)tΣ−1(y −Bx)

]exp

−1

2

[(ytΠy − 2ytκ

)]dy

∝ exp

−1

2

[xtBt(I + ΠΣ)−1ΠBx− 2xtBt(I + ΠΣ)−1κ

], (11.126)

175

Page 177: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Demonstration Notons p(x) le terme apparaissant dans le terme de gauche de l’expression (11.126).Nous avons

p(x) = exp

−1

2xBtΣ−1Bx

∫exp−1

2

[yt(Π + Σ−1)y − 2yt(κ+ Σ−1Bx)

]dy . (11.127)

En completant le carre, nous avonsy − (Π + Σ−1)−1(κ+ Σ−1Bx)

t(Π + Σ−1)

y − (Π + Σ−1)−1(κ+ Σ−1Bx)

− (κ+ Σ−1Bx)t(Π + Σ−1)−1(κ+ Σ−1Bx) . (11.128)

Par consequent

p(x) ∝ exp−1

2

[−2xtBtΣ−1(Π + Σ−1)−1κ+ xtBt

(Σ−1 − Σ−1(Π + Σ−1)−1Σ−1

)Bx

, (11.129)

ou nous n’avons fait figure que les termes qui dependent de x. L’equation (11.126) decoule des identitesmatricielles Σ−1(Π + Σ−1)−1 = (I + ΠΣ)−1 et

Σ−1 − Σ−1(Π + Σ−1)−1Σ−1 = Σ−1(Π + Σ−1)−1[(Π + Σ−1)− Σ−1

]= (I + ΠΣ)−1Π .

11.7.3 Recursion retrograde

Nous allons maintenant reecrire la recursion retrograde en utilisant les parametres d’information.Les fonctions retrogrades definies par (11.31) ne sont pas des distributions de probabilites. En effet,βk|n(x) est la densite des observations futures Yk+1, . . . , Yn conditionnelles a Xk = x. Dans les modeleslineaires gaussiens, la Proposition 11.7.1 montre que βk|n(x) est de la forme

p(y|x) ∝ exp−1

2

[(y −Mx)tΣ−1(y −Mx)

],

ou les matrices M et Σ sont donnees par (11.22) et (11.23). En procedant comme au paragrapheprecedent, cette densite peut etre mise sous la forme (11.122), en remplacant B et ΣV par M et Σ,respectivement.

En utilisant cette reecriture, nous pouvons reinterpreter βk|n(x) comme la distribution de Xk

conditionnelle a Yk+1, . . . , Yn dans un pseudo-modele ou l’etat Xk est suppose etre distribue suivantune loi a priori impropre constante. La fonction βk|n(x) n’est une distribution de probabilite propreque si M tΣ−1M est de rang complet. En particulier, rappelons que la recursion retrograde Eq. (11.32)est initialisee en posant βn|n(x) = 1 : par consequent, βn|n n’est jamais une distribution gaussiennepropre.

Nous notons par κk|n et Πk|n les parametres d’information (produit de la matrice de precision etde la moyenne et matrice de precision) correspondant a la distribution (propre ou impropre) βk|n pourk = n. Par definition, κn|n = 0 et Πn|n = 0. Remarquons que κk|n et Πk|n permettent de specifier βk|na une constante multiplicative inconnue.

Proposition 11.7.3 (Recursion retrograde pour les parametres d’information)Considerons le modele lineaire gaussien donne par (11.10)–(11.11) et supposons que SkS

tk est de rang

complet pour tout k ≥ 0. Les parametres d’information κk|n and Πk|n qui determinent la fonctionretrograde βk|n (a une constante multiplicative pres), sont donnes recursivement par :

176

Page 178: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Initialisation : Posons κn|n = 0 et Πn|n = 0.

Recursion retrograde : Pour k = n− 1 a 0,

κk+1|n = Btk+1

(Sk+1S

tk+1

)−1Yk+1 + κk+1|n , (11.130)

Πk+1|n = Btk+1

(Sk+1S

tk+1

)−1Bk+1 + Πk+1|n , (11.131)

κk|n = Atk

(I + Πk+1|nRkR

tk

)−1κk+1|n , (11.132)

Πk|n = Atk

(I + Πk+1|nRkR

tk

)−1Πk+1|nAk . (11.133)

Demonstration Considerons tout d’abord le calcul de la fonction

βk+1|n(x) ∝ gk+1(x)βk+1|n(x) (11.134)

a partir de βk+1|n. Cette fonction peut etre interpretee comme la distribution a posteriori de X dansun pseudo-modele dans lequel X serait distribue suivant la densite (potentiellement impropre) βk+1|n(specifiee par les parametres d’information κk+1|n et Πk+1|n) et l’observation Y serait donnee par

Y = Bk+1X + Sk+1V ,

ou V est independant de X. Les equations (11.130)–(11.131) correspondent aux parametres d’infor-mation de la loi (potentiellement impropre) βk+1|n par application de la Proposition 11.7.1.

La fonction retrograde (11.32) est definie par

βk|n(x) ∝∫Qk(x,dx

′)βk+1|n(x′) . (11.135)

Comme Qk est un noyau de transition gaussien (correspondant a l’equation d’etat (11.10)), (11.135)se deduit directement du Lemme 11.7.2 qui donne (11.132) et (11.133).

Il est possible de calculer recursivement la loi de lissage dans la recursion permettant de calculer lafonction retrograde

Algorithme 11.4 (Lissage avant-arriere) Recursion directe : Mettre en oeuvre l’algorithme du fil-trage de Kalman (Algorithm 11.2) et memoriser la moyenne Xk|k et la covariance Σk|k de filtrage.

Recursion retrograde : Mettre en oeuvre la recursion retrograde puis calculer pour tout k

Xk|n = Xk|k + Σk|k(I + Πk|nΣk|k

)−1(κk|n −Πk|nXk|k) , (11.136)

Σk|n = Σk|k − Σk|k(I + Πk|nΣk|k

)−1Πk|nΣk|k . (11.137)

Demonstration Les equations (11.136) and (11.137) s’obtiennent exactement comme dans leLemme 11.7.2, en remplacant (y − Bx)tΣ−1(y − Bx) by (x − µ)tΣ−1(x − µ) et en appliquant leresultat avec µ = Xk|k, Σ = Σk|k, κ = κk|n et Π = Πk|n. Si la matrice Πk|n est inversible, (11.136)et (11.137) decoulent de la Proposition 11.2.1.

177

Page 179: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Chapitre 12

Estimation des parametres pour lesmodeles d’etats

Dans le chapitre precedent, nous nous sommes principalement interesse a l’inference des etats(prediction, filtrage, lissage) en supposant que le modele etait parfaitement connu. Dans la plupartdes cas, les parametres du modele sont inconnus, et il est donc necessaire de les estimer en utilisant lesdonnees. A l’exception de quelques cas elementaires, l’utilisation d’estimateurs elementaires (methodesdes moments, moindres carres) ne sont pas directement applicables. Nous allons nous interesser dansce chapitre a l’estimation au sens du maximum de vraisemblance.

12.1 Maximum de vraisemblance : l’approche innovation

Considerons le modele lineaire gaussien

Xk+1 = Ak(θ)Xk +Rk(θ)Uk ,

Yk = Bk(θ)Xk + Sk(θ)Vk ,

ou Ukk≥0 et Vkk≥0 sont des bruits blancs forts gaussiens, independants et la condition initiale X0

est elle aussi gaussienne et est independante des bruits d’etats et de mesure. Le parametre θ est supposeappartenir a un sous-ensemble ouvert Θ de Rdθ et les fonctions θ 7→ Ak(θ), θ 7→ Rk(θ), θ 7→ Bk(θ) etθ 7→ Sk(θ) sont des fonctions deux fois continument differentiable de θ. Nous ne discutons pas ici defacon generale le probleme d’identifiabilite, auquel il convient en general d’apporter une reponse aucas par cas.

Supposons par exemple que, pour tout entier k, θ = (A,R,B, S) et que Ak(θ) = A, Rk(θ) = R,Bk(θ) = B et Sk(θ) = S), c’est a dire que les matrices de transition d’etat et de mesure sont constantes,ainsi que les matrices de covariance de l’etat et du bruit. Remarquons qu’il n’est possible d’identifierR et S qu’a une matrice unitaire pret. En effet, si nous multiplions R ou S par n’importe quellematrice unitaire (de dimension appropriee) nous ne modifions pas la distribution des observations.Les parametres identifiables sont donc les matrices de covariance ΥR = RRt et ΥS = SSt. De meme,les matrices A et B ne sont identifiables qu’a une similarite pret. En effet, posons X ′k = TXk pourune matrice inversible T quelconque ; il est clair que (X ′k, Yk) satisfait aussi le modele avec TAT−1,BT−1, et TR remplacant A, B, et R, respectivement.

178

Page 180: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

La vraisemblance du modele peut etre calculee en utilisant les innovations.Le calcul de la vraisem-blance est aise en notant que, par construction, les innovations ε1(θ), . . . , εn(θ) donnees par (11.51)sont des vecteurs gaussiens, independants, a moyenne nulle et de covariance Γk(θ) (voir (??)), quipeuvent etre evaluees de facon recursive

Γk(θ) = Bk(θ)Σk|k−1(θ)Btk(θ) + SStk(θ) ,

ou SStk(θ) est la covariance du bruit de mesure et Σk|k−1(θ) est la covariance de l’erreur de predictionoptimale de l’etat. La vraisemblance `(θ) est donnee par

`(θ) = −1

2

n∑k=1

log |Γk(θ)| −1

2

n∑k=1

εTk (θ)Γ−1k (θ)εk(θ) , (12.1)

Bien entendu, L’Eq. (12.1) est une fonction non-lineaire du parametre θ ; pour calculer son maximum,nous utilisons des procedures numeriques (voir Chapitre ??). Dans le cas present, il n’est pas tresaise de calculer directement le gradient : il faut en effet calculer les derivees de l’innovation et de sacovariance par rapport a θ. Cette operation est faisable, voir par exemple Gupta and Mehra [1974].Nous donnerons dans la suite une facon plus simple de calculer ces derivees, basees sur l’algorithmede lissage.

12.2 Maximum de vraisemblance dans des modeles a donnees la-tentes

Afin de presenter les methodes de facon aussi concise que possible, nous adoptons ici un pointde vue tres general. Nous supposons simplement que la fonction de vraisemblance d’interet peutetre ecrite comme la constante de normalisation (ou fonction de partition) d’une mesure finie. Dansla terminologie introduite dans Dempster et al. [1977], cette mesure finie est la vraisemblance desdonnees completes. Les donnees incompletes referent a la suite des observations.

12.2.1 Formulation du probleme et notations

Etant donnee une mesure σ-finie λ sur (X,X ), nous considerons la famille f(·; θ)θ∈Θ de fonctionsλ-integrables sur X. Cette famille est indexee par θ ∈ Θ, ou Θ est un sous ensemble de Rdθ (ou dθ ∈ N).Nous cherchons a maximiser la vraisemblance

L(θ)def=

∫f(x ; θ)λ(dx) (12.2)

par rapport au parametre θ. La fonction f(· ; θ) peut etre vue comme une densite de probabilitenon-normalisee dont L(θ) est la constante de normalisation. Dans les exemples usuels, f(· ; θ) est unefonction relativement simple de θ. A l’inverse, le calcul de la quantite L(θ) necessite l’evaluation d’uneintegrale dans un espace de grande dimension, operation suffisamment complexe pour rendre difficilel’evaluation de la fonction.

Nous considerons dans la suite le cas ou f est la densite de probabilite jointe de deux variablesX et Y , ou Y est observee et X est latent. La variable X est appelee la donnee manquante, f est lavraisemblance complete, et L est la vraisemblance des observations.

179

Page 181: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Dans la suite, nous supposons que L(θ) est positive, et que la maximisation de L(θ) equivaut amaximiser

`(θ)def= log L(θ) . (12.3)

En statistique, ` est la log-vraisemblance. Nous associons a chaque fonction f(· ; θ) la densite de pro-babilite p(· ; θ) (par rapport a la mesure de domination λ) definie par

p(x ; θ)def= f(x ; θ)/L(θ) . (12.4)

12.2.2 L’algorithme EM

L’algorithme le plus couramment utilise pour resoudre le probleme d’estimation dans un modele adonnees latentes est l’algorithme EM (pour expectation-maximization) introduit par Dempster et al.[1977]. L’idee centrale est de remplacer l’optimisation de L par une suite d’optimisation de fonctionsplus simples

Definition 12.2.1 (Quantite intermediaire de l’EM)La quantite intermediaire de l’EM Q(· ; θ′)θ′∈Θ est la famille de fonctions definies sur Θ par

Q(θ ; θ′)def=

∫log f(x ; θ)p(x ; θ′)λ(dx) . (12.5)

La quantite intermediaire de l’EM Q(θ ; θ′) peut etre interpretee comme la moyenne de log f(X ; θ)lorsque X est distribuee suivant la loi de densite p(· ; θ′) indexee par une valeur θ′ (a priori differente deθ) du parametre. En utilisant (12.3) et (12.4), on peut reecrire la quantite intermediaire de l’EM (12.5)de la facon suivante

Q(θ ; θ′) = `(θ)−H(θ ; θ′) , (12.6)

ou

H(θ ; θ′)def= −

∫log p(x ; θ)p(x ; θ′)λ(dx) . (12.7)

L’zquation (12.6) montre que la quantite intermediaire de l’EM Q(θ ; θ′) differe du logarithme de lafonction objectif `(θ) du facteur H(θ′ ; θ′) egal a l’entropie de Shannon de la distribution p(· ; θ′) [seefor instance Cover and Thomas, 1991]. De plus

H(θ ; θ′)−H(θ′ ; θ′) = −∫

logp(x ; θ)

p(x ; θ′)p(x ; θ′)λ(dx) , (12.8)

est egal a la divergence de Kullback-Leibler (ou entropie relative) entre les lois de densite p(·; θ) etp(·; θ′).

Nous notons le gradient et le hessien de la fonction f au point θ′ par ∇θf(θ′) et ∇2θf(θ′). Pour

eviter des ambiguıtes, le gradient de H(· ; θ′) par rapport a son premier argument, evalue a θ′′, estnote ∇θH(θ ; θ′)|θ=θ′′ (nous utilisons la meme convention pour le Hessien).

Hypothese 12.2.2

(i) L’ensemble des parametres Θ est un sous-ensemble ouvert de Rdθ .

180

Page 182: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

(ii) Pour tout θ ∈ Θ, L(θ) est positive.

(iii) Pour tout (θ, θ′) ∈ Θ×Θ,∫|∇θ log p(x ; θ)|p(x ; θ′)λ(dx) <∞.

.

Nous sommes en mesure d’enoncer le resultat fondamental qui est a la base de l’algorithme EM.

Proposition 12.2.3Supposons que les hypotheses 12.2.2 soient verifiees. Alors, pour tout (θ, θ′) ∈ Θ×Θ,

`(θ)− `(θ′) ≥ Q(θ ; θ′)−Q(θ′ ; θ′) , (12.9)

avec egalite si et seulement si p(· ; θ) = p(· ; θ′) λ-p.p.Supposons de plus que

(a) θ 7→ L(θ) est continument differentiable sur Θ ;

(b) Pour tout θ′ ∈ Θ, θ 7→ H(θ ; θ′) est continument differentiable sur Θ.

Alors, pour tout θ′ ∈ Θ, θ 7→ Q(θ ; θ′) est continument differentiable sur Θ et

∇θ`(θ′) = ∇θQ(θ ; θ′)∣∣θ=θ′

. (12.10)

La preuve decoule de facon elementaire de (12.8).

L’algorithme EM

L’essence de l’algorithme EM, suggere par (12.6), est que Q(θ ; θ′) peut etre utilisee comme unsubstitut a `(θ). Ces deux fonctions ne sont pas necessairement comparables, mais (12.9) montre quepour tout θ telle que Q(θ ; θ′) ≥ Q(θ′ ; θ′) satisfait L(θ) ≥ L(θ′).

L’algorithme EM propose par Dempster et al. [1977] consiste a construire une suite θii≥1 d’es-timateurs. Chaque iteration se decompose en deux etapes.

E-Step : Determiner Q(θ ; θi) ;M-Step : Choisir θi+1 comme la valeur de θ ∈ Θ qui maximise Q(θ ; θi).

Une consequence immediate de (12.9) est que la suite `(θi)i≥0 est croissante : l’algorithme EM estmonotone. D’autre part, si l’iteration se stoppe en un point θ?, alors la fonction θ 7→ Q(θ ; θ?) admetun maximum en θ? et par consequent θ? verifie ∇θL(θ?) = 0, i.e. θ? est un point stationnaire de lavraisemblance.

La discussion ci-dessus est heuristique dans le sens ou des conditions supplementaires sont requisespour que l’algorithme EM converge θ? ∈ Θ.

EM dans une famille exponentielle

Definition 12.2.4 (Famille Exponentielle)La famille f(· ; θ)θ∈Θ definit une famille exponentielle de fonctions positives sur X si

f(x ; θ) = expψ(θ)tS(x)− c(θ)h(x) , (12.11)

ou S : X→ Rd et ψ : Θ→ Rd , c : Θ→ R et h : X→ R+.

181

Page 183: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Lorsque f(· ; θ)θ∈Θ est une famille exponentielle et∫|S(x)|f(x ; θ)λ(dx) pour tout θ ∈ Θ, la quantite

intermediaire de l’EM s’ecrit

Q(θ ; θ′) = ψ(θ)t[∫

S(x)p(x ; θ′)λ(dx)

]− c(θ) +

∫p(x ; θ′) log h(x)λ(dx) . (12.12)

Notons que le second terme dans le membre de droite ne depend pas de θ et ne joue donc aucunrole dans l’optimisation. Il n’est donc pas necessaire de le calculer. Le premier terme du membrede droite (12.12) possede une expression statistique des que l’on sait calculer la moyenne de S sousp(· ; θ′).

Les deux conditions necessaires pour que l’on puisse mettre en oeuvre l’algorithme EM est doncque

E-Step : la moyenne du vecteur S(X) sous p(· ; θ′) soit calculable.M-Step : la maximisation ψ(θ)ts−c(θ) par rapport a θ ∈ Θ est faisable (et aisee) pour tout s dans

l’enveloppe convexe de S(X).

12.2.3 Methodes directes

Il est aussi possible de calculer le gradient de `(θ) par rapport au parametre θ. Ceci decouledirectement de l’equation (12.10). Au lieu d’utiliser l’algorithme EM, il est possible d’utiliser desoutils eprouves d’optimisation non lineaire, basees sur le calcul des gradients.

Calcul du gradient et du Hessien dans un modele a donnees incompletes

Proposition 12.2.5Supposons que 12.2.2 et les hypotheses enoncees ci-dessous soient satisfaites

(a) θ 7→ L(θ) est deux fois continument differentiable sur Θ.

(b) Pour tout θ′ ∈ Θ, θ 7→ H(θ ; θ′) est deux fois continument differentiable sur Θ. De plus,∫|∇kθ log p(x ; θ)|p(x ; θ′)λ(dx) est fini pour k = 1, 2 et tout (θ, θ′) ∈ Θ×Θ, et

∇kθ∫

log p(x ; θ)p(x ; θ′)λ(dx) =

∫∇kθ log p(x ; θ)p(x ; θ′)λ(dx) .

Alors,

∇θ`(θ′) =

∫∇θ log f(x ; θ)|θ=θ′ p(x ; θ′)λ(dx) , (12.13)

−∇2θ`(θ

′) = −∫∇2θ log f(x ; θ)

∣∣θ=θ′

p(x ; θ′)λ(dx)

+

∫∇2θ log p(x ; θ)

∣∣θ=θ′

p(x ; θ′)λ(dx) . (12.14)

La deuxieme identite peut etre reecrite sous la forme equivalente

∇2θ`(θ

′) +∇θ`(θ′)

∇θ`(θ′)

t=

∫ [∇2θ log f(x ; θ)

∣∣θ=θ′

+ ∇θ log f(x ; θ)|θ=θ′ ∇θ log f(x ; θ)|θ=θ′t

]p(x ; θ′)λ(dx) . (12.15)

182

Page 184: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

L’equation (12.13) est souvent appelee l’identite de Fisher. Lorsque L est une vraisemblance, lemembre de gauche de (12.13) est appelee le score. L’Eq. (12.13) montre que le score peut etre evalueen calculant la moyenne, sous p(· ; θ′), de la fonction ∇θ log f(X ; θ)|θ=θ′ . Cette quantite est appelee lescore du modele complet.

Demonstration Les equations (12.13) et (12.14) decoulent de (12.6).Pour etablir (12.15), nous considerons (12.14) que nous reecrivons∫∇2θ log p(x ; θ)

∣∣θ=θ′

p(x ; θ′)λ(dx)

= −∫∇θ log p(x ; θ)|θ=θ′ ∇θ log p(x ; θ)|θ=θ′

t p(x ; θ′)λ(dx) .

Pour etablir cette identite nous avons utilise que p(· ; θ) est une densite de probabilite pour toutes lesvaleurs du parametre θ, ce qui implique∫

∇θ log p(x ; θ)|θ=θ′ p(x ; θ′)λ(dx) = 0 .

En utilisant la relation elementaire log p(x ; θ) = log f(x ; θ)− `(θ) et (12.13) nous concluons que∫∇θ log p(x ; θ)|θ=θ′ ∇θ log p(x ; θ)|θ=θ′

t p(x ; θ′)λ(dx)

=

∫∇θ log f(x ; θ)|θ=θ′ ∇θ log f(x ; θ)|θ=θ′

t p(x ; θ′)λ(dx)

−∇θ`(θ′)

∇θ`(θ′)

t.

Remarque 12.1 A l’instar de la quantite intermediaire de l’EM, les expressions du gradient et duHessien de la vraisemblance font intervenir des esperances sous p(· ; θ′) de quantites associes a lavraisemblance complete f(· ; θ). Lorsque f(· ; θ) est une famille exponentielle (voir la definition 12.2.4),le gradient peut etre reecrit

∇θ`(θ′) =∇θψ(θ′)

t(∫S(x)p(x ; θ′)λ(dx)

)−∇θc(θ′) ,

ou par convention ∇θψ(θ′) est, par convention, la matrice dθ × dθ dont les entrees sont donnees par[∇θψ(θ′)]ij = ∂ψi(θ

′)/∂θj . Dans ce cas, ces quantites requierent simplement d’evaluer l’esperance dela statistique S(x) par rapport a p(· ; θ) pour toute valeur du parametre θ ∈ Θ.

Remarque 12.2 Dans certains contextes, il est possible de concevoir et de mettre en oeuvre des algo-rithmes qui n’atteignent pas des vitesses de convergence super-lineaires, mais qui toutefois convergentbeaucoup plus vites que l’algorithme de plus forte pente. Dans les modeles d’observations incompletes,Lange [1995] a suggere par exemple d’utiliser (10.21) avec une matrice de poids I−1

c (θi) donnee par

Ic(θ′) = −

∫∇2θ log f(x ; θ)

∣∣θ=θ′

p(x ; θ′)λ(dx) . (12.16)

183

Page 185: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Cette matrice est le premier terme de la matrice d’information de Fisher (12.14). Dans de nombreuxmodeles d’interet, cette matrice est definie positive pour tout θ′ ∈ Θ, et donc l’inversion de cettematrice ne conduit pas a des instabilites numeriques. En s’appuyant sur (12.14), il est raisonnable depenser que Ic(θ

′) puisse etre une approximation raisonnable de la matrice hessienne ∇2θ`(θ

′) et doncque l’algorithme de gradient ainsi modifie converge plus vite que l’algorithme de plus forte pente [seeLange, 1995, for further results and examples].

12.2.4 Avantages et incovenients des algorithmes de gradient

Dans les modeles a observations incompletes, il apparaıt que les algorithmes de type EM sontbeaucoup plus couramment utilises que les methodes d’optimisation numerique classiques.

– L’algorithme EM est facile a mettre en oeuvre Ceci n’est generalement pas le cas pour l’algo-rithme d’optimisation classique, qui en particulier de developper des algorithmes de ponderationdu gradient et de recherche du pas.

– L’algorithme EM prend en compte implicitement les contraintes. Dans la plupart des cas, l’op-timisation dans l’etape M est tres simple et peut etre effectuee en prenant en compte lescontraintes. Pour les approches d’optimisation classiques, les contraintes doivent etre prises encompte explicitement, soit en utilisant une reparametrisation ou en utilisant un algorithme d’op-timisation sous contrainte.

– L’algorithme EM est independant du choix de la parametrisation. La mise a jour dans l’algo-rithme EM etant base sur le calcul du maximum d’une fonction intermediaire, l’algorithme estindependant du choix de la parametrisation, a l’instar de l’estimateur du maximum de vraisem-blance. Une transformation bijective du parametre θ ne modifie pas les recursions de l’EM. Cecin’est pas le cas pour l’algorithme de plus forte pente (mais cette condition est satisfaite pourune transformation diffeomorphique par l’algorithme de Newton-Raphson).

A l’inverse on peut etre amene a preferer les algorithmes de gradient pour les raisons suivantes– Les algorithmes de gradient ne requierent pas d’etape M. Ils peuvent donc etre utilises dans des

situations ou l’etape M n’a pas de solution elementaire.– Les algorithmes bases sur le gradient peuvent converger dans certaines situations plus vite.

Comme nous l’avons souligne, des algorithmes de gradient correctement ponderes peuvent at-teindre des vitesses de convergence super-lineaires, alors que l’algorithme EM est typiquementlineaire.

12.2.5 Quantite intermediaire de l’EM pour le modele lineaire Gaussien

En utilisant les notations introduites precedemment, la quantite intermediaire de l’algorithmeQ(θ ; θ′), defini dans (12.5) peut s’exprimer de la facon suivante

− 1

2Eθ′[n log |ΥR|+

n−1∑k=0

(Xk+1 −AXk)tΥ−1

R (Xk+1 −AXk)

∣∣∣∣∣Y0:n

]

− 1

2E [ θ′](n+ 1) log |ΥS |+

n∑k=0

(Yk −BXk)tΥ−1

S (Yk −BXk)

∣∣∣∣∣ Y0:n , (12.17)

184

Page 186: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

en omettant les termes qui ne dependent pas explicitement des parametres. Pour expliciter les solutionsde l’etape M, nous differentions (12.17) en utilisant les regles elementaires du calcul (et en utilisantl’identite ∇C log |C| = C−t pour toute matrice inversible C) :

∇AQ(θ ; θ′) = −Υ−1R Eθ′

[n−1∑k=0

(AXkXtk −Xk+1X

tk)

∣∣∣∣∣Y0:n

], (12.18)

∇Υ−1RQ(θ ; θ′) = −1

2

−nΥR (12.19)

+ Eθ′[n−1∑k=0

(Xk+1 −AXk)(Xk+1 −AXk)t

∣∣∣∣∣Y0:n

],

∇BQ(θ ; θ′) = −Υ−1S Eθ′

[n∑k=0

(BXkXtk − YkXt

k)

∣∣∣∣∣Y0:n

], (12.20)

∇Υ−1SQ(θ ; θ′) = −1

2

−(n+ 1)ΥS (12.21)

+ Eθ′[

n∑k=0

(Yk −BXk)(Yk −BXk)t

∣∣∣∣∣Y0:n

].

Notons que dans les expressions precedentes, nous avons differencie par rapport aux inverses desmatrices de covariance (i.e. par rapport aux matrices de precision) ΥR et ΥS plutot que par rap-port aux matrices de covariance. Cette approche permet d’obtenir des formules plus simples. Lesvaleurs des parametres a chaque iteration de l’EM sont determines en cherchant les parametresqui annulent ces derivees. Nous notons A∗, B∗, Υ∗R, et Υ∗S , ces valeurs. Pour ecrire ces quantites,

nous utilisons les notations introduites dans le chapitre 11 : Xk|n(θ′) = Eθ′ [Xk|Y0:n] and Σk|n(θ′) =

Eθ′ [XkX′k|Y0:n]− Xk|n(θ′)Xt

k|n(θ′), ou nous indiquons maintenant explicitement la dependance de la

moyenne et des covariances de lissage par rapport a la valeur courante des parametres (ces quantitesdependent aussi de la valeur initiale de la matrice de covariance Σν , mais nous n’indiquons pas ex-plicitement cette dependance pour ne pas alourdir des notations deja assez complexes). Nous auronsaussi besoin d’evaluer les matrices de covariance

Ck,k+1|n(θ′)def= Covθ′ [Xk, Xk+1 | Y0:n]

= Eθ′[XkX

tk+1

∣∣Y0:n

]− Xk|n(θ′)Xt

k+1|n(θ′) .

185

Page 187: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

En utilisant ces notations, les valeurs mises a jour des parametres sont donnees par

A∗ =

[n−1∑k=0

Ck,k+1|n(θ′) + Xk|n(θ′)Xtk+1|n(θ′)

]t(12.22)

[n−1∑k=0

Σk|n(θ′) + Xk|n(θ′)Xtk|n(θ′)

]−1

,

Υ∗R =1

n

n−1∑k=0

[Σk+1|n(θ′) + Xk+1|n(θ′)Xt

k+1|n(θ′)]

(12.23)

−A∗[Ck,k+1|n(θ′) + Xk|n(θ′)Xt

k+1|n(θ′)]

,

B∗ =

[n∑k=0

Xk|n(θ′)Y tk

]t(12.24)

[n∑k=0

Σk|n(θ′) + Xk|n(θ′)Xtk|n(θ′)

]−1

,

Υ∗S =1

n+ 1

n∑k=0

[YkY

tk −B∗Xk|n(θ′)Y t

k

]. (12.25)

186

Page 188: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Quatrieme partie

Annexes

187

Page 189: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Annexe A

Rappels sur la transformee de Fourier

Dans toute la suite, I designe l’intervalle I = [−π, π] et B(I) la tribu de Borel de I construite surles ouverts de I.

Proposition A.0.6 (Transformee de Fourier discrete d’une suite sommable)Soit R(n) une suite complexes de module sommable. Alors :

R(n) =

∫Ieinλf(λ)dλ ou f(λ) =

1

∞∑n=−∞

R(n)e−inλ

D’apres l’absolue sommabilite de R(n), f(λ) existe. Du fait que∫I

∑n |R(n)|dλ < +∞, l’application

directe du theoreme de Fubini donne :∫Ieinλf(λ)dλ =

∫Ieinλ

1

∞∑k=−∞

R(k)e−ikλdλ =∞∑

k=−∞R(k)

1

∫Iei(n−k)λdλ = R(n)

Proposition A.0.7 (Coefficients de Fourier d’une mesure finie)Soit ν une mesure non-negative, definie sur I,B(I), finie (i.e. telle que

∫I ν(dλ) < +∞) et soit

n ∈ Z. On appelle n-ieme coefficient de Fourier de ν :

ν(n) =

∫I

eiλnν(dλ)

Du fait que la mesure est finie |ν(n)| est fini.

1. L’application ν → ν est injective.

2. La suite ν est de type non-negatif.

3. Soit νnn≥0 et ν des mesures finies. La suite de mesures νn converge etroitement vers lamesure ν (quand n tend vers l’infini), si et seulement si, pour tout k ∈ Z, νn(k) converge versν(k) (quand n tend vers l’infini).

1. Cb(I) designe l’ensemble des fonctions complexes, continues et bornees, definies sur I = [−π, π],muni de la topologie associee a la norme uniforme ‖f‖∞ = supλ∈[−π,π] |f(λ)|. Precisons que

188

Page 190: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

l’egalite ν1 = ν2 doit etre comprise dans le sens ou∫I f(λ)ν1(dλ) =

∫I f(λ)ν2(dλ) pour toute

fonction f ∈ Cb(I). Le point 1 est alors une consequence directe du fait que les combinaisonslineaires d’exponentielles complexes, de la forme einλ, sont denses dans Cb(I). L’applicationqui, a tout f ∈ Cb(I) fait correspondre le nombre complexe cν(f) =

∫f(λ)ν(dλ) ∈ C est une

forme lineaire continue sur Cb(I), qui associe aux exponentielles complexes de la forme einλ lescoefficients de Fourier cν(ein•) = ν(n). Par consequent, si pour deux mesures ν et ν, les formeslineaires associees, cν et cν , coıncident pour les exponentielles complexes (i.e. ν(n) = ν(n)), alorselles coıncident pour toute fonction de Cb(I). Ce qui demontre le point 1.

2. Soit (z1, z2, · · · , zn) des nombres complexes. On a :

d∑r,s=1

zrz∗s ν(r − s) =

∫I

d∑r,s=1

zsz∗rei(r−s)λν(dλ) =

∫I

∣∣∣∣∣d∑r=1

zre−irλ

∣∣∣∣∣2

ν(dλ) ≥ 0

3. Par definition, la suite de mesure νn converge etroitement vers ν si pour toute fonction f ∈ Cb(I),limn cνn(f) = cν(f). En particulier, si on prend f = e−ik• (qui est continue et bornee), nousavons cνn(eik•) = νn(k) → ν(k). Reciproquement, soit νn une suite de mesures finies sur Itelles que, pour tout k ∈ Z, limn νn(k) = ν(k). Cette propriete implique en particulier que lasuite νn(0) = νn(I) est convergente, et est donc bornee, supn≥0 νn(0) < ∞. Remarquons aussique |νn(k)| ≤ νn(0). Pour f ∈ L2(I, dλ) (ou dλ designe la mesure de Lebesgue), definissons :

f(k) =

∫If(t)e−iktdt

Considerons la classe F de fonctions f verifiant∑

k∈Z |f(k)| < ∞. La classe F est dense dansCb(I). Notons que, pour toute fonction f ∈ F , nous avons :

f(λ) =1

∑k∈Z

f(k)e−ikλ

Par consequent, en appliquant le theoreme de Fubini, on a :

cνn(f) =

∫If(λ)νn(dλ) =

1

∫I

∑k∈Z

f(k)e−ikλνn(dλ),=1

∑k∈Z

f(k)νn(k)

Comme supk supn |νn(k)| < ∞, le theoreme de convergence dominee et le theoreme de Fubiniimpliquent que :

limncνn(f) =

1

∑k∈Z

f(k) limn→+∞

νn(k) =1

∑k∈Z

f(k)ν(k) = cν(f)

Soit maintenant f une fonction continue. Pour tout ε > 0, il existe fε ∈ F tel que ‖f − fε‖∞ ≤ εet nous avons :

|νn(f)− ν(f)| ≤ |νn(fε)− ν(fε)|+ |ν(fε)− ν(f)|≤ |νn(fε)− ν(fε)|+ ‖f − fε‖∞(|νn(0)|+ |ν(0)|)

189

Page 191: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

et donc puisque fε ∈ F la limite du premier terme est 0 et on a :

lim supn|νn(f)− ν(f)| ≤ 2ε|ν(0)|

Comme ε est arbitraire, nous avons donc limn νn(f) = ν(f), ce qui conclut la preuve.

190

Page 192: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Annexe B

Complements sur les matrices

Toutes les matrices et tous les vecteurs (colonne) consideres sont de dimensions finies a elementscomplexes. On suppose connue la definition du determinant.

Notations

L’exposant T designe la transposition, l’exposant H designe la transposition-conjugaison. I designeune matrice identite de dimension adequate. La matrice diag(a1, . . . , aN ) designe la matrice carreediagonale de dimension N , dont les elements diagonaux sont a1, . . . , aN . Une matrice carree U est diteunitaire si UUH = UHU = I. Une matrice carree P est un projecteur si P 2 = P = PH . Par exemple, siv designe un vecteur, la matrice vvH/vHv est un projecteur. La trace d’une matrice est la somme de seselements diagonaux. La trace verifie Trace(A+B) = Trace(A)+Trace(B) et Trace(AB) = Trace(BA).

Matrice-bloc, determinant et trace

Pour des matrices carrees ayant des dimensions appropriees, on a les formules suivantes :

(AB)H = BHAH

(AH)−1 = (A−1)H

det(A) = det(AT )

det(AB) = det(A)det(B)

det(I −AB) = det(IM −BA)

det

[A BC D

]= det(A)det(D − CA−1B)

[A BC D

]−1

=

[A−1 +A−1B∆−1CA−1 −A−1B∆−1

−∆−1CA−1 ∆−1

]ou ∆ = D − CA−1B

Lemme d’inversion matricielle : si A et B sont deux matrices carrees inversibles, alors pour toutesmatrices G et H de dimensions appropriees :

(A+GBH)−1 = A−1 −A−1G(HA−1G+B−1

)−1HA−1

191

Page 193: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Valeurs propres

Pour une matrice carree A de dimension N × N , les vecteurs propres representent les directionsde l’espace CN qui sont invariantes. Ce sont par consequent les vecteurs w definis par l’equationAw = λw. La trace est egale a la somme des valeurs propres et le determinant a leur produit. Celas’ecrit :

Trace(A) =

N∑i=1

λi et det(A) =

N∏i=1

λi

Image de A

Soit A une matrice de dimension M ×N . On appelle image de A le sous-espace de CM note I(A),qui est engendre par les vecteurs-colonnes de A. On appelle noyau de A le sous-espace de CN noteN (A), qui est solution de Ax = 0. On appelle rang-colonne de A la dimension de son espace imagerang(A) = dim I(A). C’est aussi le nombre de vecteurs-colonnes de A qui sont independants. Onmontre que :

dimN (A) + dim I(A) = N

Si A est de rang-colonne plein, cad rang(A) = N , alors soit AHA est inversible. On definit de la mememaniere un rang-ligne. Le rang de A est le minimum de son rang-colonne et de son rang-ligne. Danstous les cas le rang d’une matrice est inferieur a min(M,N).

Valeurs singulieres

Soit A une matrice de dimension M×N et de rang r. Alors il existe deux matrices carrees unitairesl’une notee U de taille M ×M et l’autre notee V de taille N ×N , telles que :

A = U

(Σr 00 0

)V H

ou Σr = diag(σ1, . . . , σr) avec σ1 ≥ · · · ≥ σr > 0. Les valeurs σi sont dites valeurs singulieres de A.– Les vecteurs colonnes de U de dimension M sont les vecteurs propres de AAH . Les r premiers

vecteurs colonnes de U forment une base orthonormee de l’image de A.– Les vecteurs colonnes de V de dimension N sont les vecteurs propres de AHA. Les (N − r)

derniers vecteurs colonnes de V forment une base orthonormee du noyau de A.On appelle pseudo-inverse de A la matrice de dimension N ×M :

A+ = V

(Σ−1r 0

0 0

)UH

Dans CM , la matrice carree AA+ est le projecteur sur I(A). Dans CN , la matrice carree (I − A+A)est le projecteur sur N (A). Si A est de rang plein, alors :

– pour M = N , A+ = A−1,– pour M > N , A+ = (AHA)−1AH

– et pour M < N , A+ = AH(AAH)−1

Le rapport entre la plus grande et la plus petite valeur singuliere d’une matrice s’appelle son nombrede conditionnement. Il mesure la difficulte numerique a calculer sa pseudo-inverse.

192

Page 194: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Matrice carree positive

Une matrice carree R est dite hermitienne si elle verifie R = RH . Une matrice carree hermitienneR est dite non-negative, respectivement positive si pour tout vecteur a, on a aHRa ≥ 0 (resp. > 0).Pour les matrices non negatives, la decomposition en valeurs propres et la decomposition en valeurssingulieres coıncident. Si R est positive, alors R−1 existe et est positive. Si R est non negative, toutesses valeurs propres sont reelles, non negatives et leur ordre de multiplicite est egal a la dimensiondu sous-espace propre associe. Si R est une matrice non negative et si ses valeurs propres λi sontdistinctes, alors les vecteurs propres wi associes sont deux a deux orthogonaux et on a :

R =N∑i=1

λiwiwHi

ou tous les λi sont non negatifs. On en deduit que :

Rn =N∑i=1

λni wiwHi

Il est facile d’etendre cette ecriture a une fonction polynomiale quelconque. En particulier on en deduitque R verifie son equation caracteristique (det(A − λI) = 0). Par extension, pour toute fonction fdeveloppable en serie entiere, on peut definir la fonction de matrice :

f(R) =

N∑i=1

f(λi)wiwHi

193

Page 195: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Bibliographie

B. D. O. Anderson and J. B. Moore. Optimal Filtering. Prentice-Hall, 1979.

A. Bryson and M. Frazier. Smoothing for linear and nonlinear dynamic systems. Technical ReportTDR 63-119, Aero. Sys. Div. Wrigth-Patterson Air Force Base, 1963.

P. E. Caines. Linear Stochastic Systems. Wiley, 1988.

T. M. Cover and J. A. Thomas. Elements of Information Theory. Wiley, 1991.

P. De Jong. A cross validation filter for time series models. Biometrika, 75 :594–600, 1988.

A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via theEM algorithm. J. Roy. Statist. Soc. Ser. B, 39(1) :1–38 (with discussion), 1977.

R. Fletcher. Practical Methods of Optimization. Wiley, 1987.

N. Gupta and R. Mehra. Computational aspects of maximum likelihood estimation and reduction insensitivity function calculations. IEEE Trans. Automat. Control, 19(6) :774–783, 1974.

T. Kailath, A. Sayed, and B. Hassibi. Linear Estimation. Prentice-Hall, 2000.

Olav Kallenberg. Foundations of modern probability. Probability and its Applications (New York).Springer-Verlag, New York, second edition, 2002. ISBN 0-387-95313-2.

R. E. Kalman and R. Bucy. New results in linear filtering and prediction theory. J. Basic Eng., Trans.ASME, Series D, 83(3) :95–108, 1961.

R. Kohn and C. F. Ansley. A fast algorithm for signal extraction, influence and cross-validation instate space models. Biometrika, 76 :65–79, 1989.

S. J. Koopman. Disturbance smoother for state space models. Biometrika, 80 :117–126, 1993.

K. Lange. A gradient algorithm locally equivalent to the EM algorithm. J. Roy. Statist. Soc. Ser. B,57(2) :425–437, 1995.

D. G. Luenberger. Linear and Nonlinear Programming. Addison-Wesley, 2nd edition, 1984.

J. Nocedal and S. J. Wright. Numerical optimization. Springer Series in Operations Research andFinancial Engineering. Springer, New York, second edition, 2006. ISBN 978-0387-30303-1 ; 0-387-30303-0.

194

Page 196: Master 1 MMD - Séries Temporelles (Paris-Dauphine)

H. Rauch, F. Tung, and C. Striebel. Maximum likelihood estimates of linear dynamic systems. AIAAJournal, 3(8) :1445–1450, 1965.

L. Schwartz. Analyse. I, volume 42 of Collection Enseignement des Sciences [Collection : The Teachingof Science]. Hermann, Paris, 1991. ISBN 2-7056-6161-8. Theorie des ensembles et topologie. [Settheory and topology], With the collaboration of K. Zizi.

195