Chapitre 5 Modèles linéraires pour les séries temporelles

62
Chapitre 5 Modèles linéraires pour les séries temporelles Un objectif de l’analyse de données économiques consiste à prédire les valeurs futures de variables économiques. Dans les chapitres précédents, cette prédiction provient d’un modèle économétrique structurel permettant de relier la variable économique d’intérêt à une série de variables explicatives. Cependant, il y a des situations dans lesquelles cette stratégie n’est pas toujours fructueuse. A titre d’exemple, même si nous pouvons ajuster un modèle reliant le taux de chômage au taux d’inflation, il ne sera possible de prédire le taux de chômage pour une année future que si le taux d’inflation de cette année est donnée. Or, ce taux d’inflation n’est pas encore connu, la prédiction pose donc problème. Dans ce chapitre, nous étudions une autre stratégie pour répondre à cette ques- tion de la prévision. L’idée est de relier la variable d’intérêt aux valeurs qu’elle a suivies dans le passé, en introduisant donc des décalages temporels dans le modèle. 5.1 Introduction aux séries chronologiques 5.1.1 Définition et exemples Une série chronologique (ou série temporelle) est une suite formée d’observa- tions au cours du temps. La définition mathématique adéquate pour l’étude et la prévision de telles suites consiste à les considérer comme une réalisation particu- lière d’une famille de variables aléatoires {Y t ,t =1, 2,...T } définies sur un espace de probabilité. L’indice t représente le temps, et Y t est une variable aléatoire mo- délisant la variable étudiée au temps t Un premier exemple de série temporel est donné à la figure 5.1. Cet exemple a déjà été traité dans un chapitre précédent. La figue supérieure montre le taux de chômage annuel aux USA de 1967 à 2000. La figure inférieure montre l’évolution de l’indice des prix sur la même période. Une question important est de savoir quelle

Transcript of Chapitre 5 Modèles linéraires pour les séries temporelles

Page 1: Chapitre 5 Modèles linéraires pour les séries temporelles

Chapitre 5

Modèles linéraires pour les séries

temporelles

Un objectif de l’analyse de données économiques consiste à prédire les valeursfutures de variables économiques. Dans les chapitres précédents, cette prédictionprovient d’un modèle économétrique structurel permettant de relier la variableéconomique d’intérêt à une série de variables explicatives.

Cependant, il y a des situations dans lesquelles cette stratégie n’est pas toujoursfructueuse. A titre d’exemple, même si nous pouvons ajuster un modèle reliantle taux de chômage au taux d’inflation, il ne sera possible de prédire le taux dechômage pour une année future que si le taux d’inflation de cette année est donnée.Or, ce taux d’inflation n’est pas encore connu, la prédiction pose donc problème.

Dans ce chapitre, nous étudions une autre stratégie pour répondre à cette ques-tion de la prévision. L’idée est de relier la variable d’intérêt aux valeurs qu’elle asuivies dans le passé, en introduisant donc des décalages temporels dans le modèle.

5.1 Introduction aux séries chronologiques

5.1.1 Définition et exemples

Une série chronologique (ou série temporelle) est une suite formée d’observa-tions au cours du temps. La définition mathématique adéquate pour l’étude et laprévision de telles suites consiste à les considérer comme une réalisation particu-lière d’une famille de variables aléatoires {Yt, t = 1, 2, . . . T} définies sur un espacede probabilité. L’indice t représente le temps, et Yt est une variable aléatoire mo-délisant la variable étudiée au temps t

Un premier exemple de série temporel est donné à la figure 5.1. Cet exemple adéjà été traité dans un chapitre précédent. La figue supérieure montre le taux dechômage annuel aux USA de 1967 à 2000. La figure inférieure montre l’évolution del’indice des prix sur la même période. Une question important est de savoir quelle

Page 2: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 193

est la relation existant entre les deux séries d’observations.

Années

Chômage

1970 1980 1990 2000 2010

456789

Années

Inflation

1970 1980 1990 2000 2010

04

812

Figure 5.1: Yearly rate of unemployment (% from the active po-pulation) and yearly changes in the price index (in %) in the USAfrom 1967 to 2010 (source : US government, www.gpoaccess.gov)

Le cadre mathématique usuel pour l’analyse des séries temporelles consiste àconsidérer que ces séries d’observations sont des réalisations particulières qu’unefamille de variables aléatoires {Yt, t = 1, 2, . . . T} définies sur le même espace deprobabilité. L’indice t, représente le temps (l’année dans cet exemple. La variableYt est une variable aléatoire modélisant l’objet étudié au temps t. En résumé, pourtout temps t, nous n’observons qu’une seule réalisation de la variable aléatoirenotée Yt.

La figure 5.2 présente un autre exemple de série chronologique. Il s’agit dulogarithme du PIB annuel des USA de 1950 à 2011 (en millions de dollars normésen 2005). Cet exemple présente un élément différent de l’exemple précédent, puisquela série semble croître linéairement au cours du temps.

Page 3: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 194

14.5

15.0

15.5

16.0

04/56 01/70 09/83 05/97 01/11

(a) Log of the real GDP

-20

24

6

04/56 01/70 09/83 05/97 01/11

(b) 100 times the return of logs

Figure 5.2: US GDP from 1950 to 2011 in millions of 2005dollars (Source : wikiposit.org)

Afin d’étudier la variation de cette série au cours du temps, un taux de croissantpeut être calculé. Deux mesures du taux de croissance peuvent être considérées. Sinous notons Xt le PIB au temps t, une mesure possible du taux de croissance estdonnée par

100× Xt −Xt−1

Xt−1(5.1)

Une autre mesure possible, que nous allons préférer, est donnée par la formule

100× {log(Xt)− log(Xt−1)} (5.2)

Cette dernière mesure est également représentée à la figure 5.2(b). Cette deuxièmemesure est une approximation de la première mesure de croissance car, si l’onconsidère une approximation de Taylor du premier order de la fonction log(Yt)

Page 4: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 195

autour du point Yt−1, nous trouvons

log(Xt) ≈ log(Xt−1) + (Xt −Xt−1)∂ log(Xt)

∂Xt

∣∣∣∣Xt=Xt−1

= log(Xt−1) +Xt −Xt−1

Xt−1

ce qui montre que les deux mesures de croissance proposées sont approximativementégales. L’approximation démontrée ici est d’autant plus exacte que la variation|Xt−Xt−1| est faible. Cependant, la mesure (5.2) possède la propriété intéressanted’additivité : la variation entre Xt et Xt−2 peut en effet être retrouvée facilementà partir de la variation entre Xt et Xt−1 en utilisant la propriété suivante :

log(Xt)− log(Xt−2) = {log(Xt)− log(Xt−1)}+ {log(Xt−1)− log(Xt−2)}

Observez que, par contre, la mesure de croissance relative (5.1) n’est pas une mesureadditive.

Les deux exemple déjà présentés ci-dessus montrent que l’analyse économé-trique des séries temporelles est confrontée à deux défis. Le premier concerne latendance (ou trend) qui doit être analysée comme dans le cas de la figure 5.2(a).Cette analyse peut être réalisée conjointement avec d’autres observations tempo-relles, comme à la figure 5.1. Cependant une série temporelle ne montre pas toujoursune tendance claire au cours du temps. Par exemple, le taux de chômage ne montrepas de tendance particulière, mais au contraire présente certains cycles. La série surles indices de prix ne montre, quant à elle, aucune figure tendancielle claire. Lors-qu’on analyse le pourcentage de croissance du PIB à partir d’une figure telle quela figure 5.2(b), la tendance doit tout d’abord être analysée. Autour de cette ten-dance, le résidu est une nouvelle série temporelle sans tendance. Le deuxième déficonsiste alors à modéliser, voir prévoir, cette série résiduelle. La série résiduelle n’apas de tendance, mais n’est nécessairement sans structure intéressante. Une grandepartie de notre travail consistera à modéliser la structure pouvant demeurer dansles séries résiduelles afin d’en améliorer la prévision.

5.1.2 Objectifs

L’étude des séries chronologiques dans le cadre de ce cours d’économétrie pour-suit les objectifs suivants :

1. La prévision ponctuelle. Le premier objectif est de prévoir les valeurs futuresYT+h (h = 1, 2, 3, . . .) de la série chronologique à partir de ses valeurs obser-vées jusqu’au temps T : Y1 . . . YT . La prédiction de la série chronologique autemps T + h est notée YT+h.

2. La construction d’intervalles de prévision. En général, la prédiction YT+h

est différente de la valeur réelle YT+h que prend la série au temps T + h.Nous verrons comment construire un intervalle de prévision autour de YT+h,susceptible de contenir la valeur inconnue YT+h à un niveau donné.

Page 5: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 196

3. Un autre problème intéressant est la détection de ruptures résultantes, parexemple, d’un changement de politique (économique). Ces ruptures peuventêtre de deux ordres : une rupture de niveau (par exemple, le cours du PNBespagnol a été fortement modifié en raison de la crise pétrolière de 1973) ouune rupture de pente.

4. Il faudra également éliminer la tendance (ou trend) représentant l’évolutionà moyen terme du phénomène étudié. Cette tendance agit comme une fortecorrélation entre les variables Yt qui n’exprime aucune liaison à caractèreexplicatif. Nous verrons comment enlever cette tendance pour voir si de tellesliaisons existent afin de n’étudier que les corrélations sans tendance qui sontles quantités qui nous intéressent pour expliquer un phénomène observé.

Il existe encore bien d’autres objectifs immédiats à l’étude des séries chrono-logiques. Par exemple, si deux séries sont observées, on peut se demander quelleinfluence elles exercent l’une sur l’autre. En notant (Xt) et (Yt) deux séries chro-nologiques observées, on examine s’il existe, par exemple, des relations du type

Yt = a1Xt−1 + a3Xt−3.

Ici, deux questions interviennent : Tout d’abord la question de la causalité, c’est-à-dire quelle variable (ici Xt) va expliquer l’autre variable (ici Yt), ce qui amènela deuxième question, la question du décalage temporel : si une influence de (Xt)sur (Yt) existe, avec quel délai et pendant combien de temps la variable explicative(Xt) influence-t-elle la variable expliquée (Yt) ? Un dernier problème important dela macroéconométrie sera alors de déterminer les relations persistantes (de longterme) des autres relations à court terme.

Seulement une partie de ces questions sera traitée dans le cadre de ce chapitreintroductif. Vous avez la possibilité de suivre des cours en Master spécifiquementdédié à ces développements.

5.1.3 Modélisation

La base de notre modélisation se fonde sur une décomposition de la série Yt enla somme d’une tendance déterministe mt et d’une composante non systématique,Xt :

Yt = mt +Xt .

Dans ce modèle, il est important de garder à l’esprit que mt est une fonctiondéterministe, et représente l’évolution non permanente de la variable Yt. La fonctionmt peut par exemple prendre la forme d’une fonction linéaire du temps (mt =a + bt). La composante Xt est par contre aléatoire. Elle représente l’erreur dansl’approximation de la série Yt par sa tendance mt. La composante aléatoire Xt est demoyenne nulle, mais possède en général une structure de corrélation non triviale.

Page 6: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 197

Une analyse fine de cette structure nous permettra dans les sections suivantesd’améliorer la prévision à court terme de Yt.

Dans la section suivante, nous voyons comment estimer la tendance mt dece modèle. Ensuite, nous nous concentrons sur l’analyse plus délicate du termealéatoire Xt.

5.2 Modélisation et élimination de la tendance

Pour illustrer cette section, partons des deux exemples présentés à la figure 5.3.Le premier exemple est le logarithme du PIB annuel aux USA de 1950 à 2011 etle second est le prix de marché quotidien du pétrole brut de janvier 2009 à juillet2012.

14.5

15.0

15.5

16.0

04/56 01/70 09/83 05/97 01/11

(a) Log of the real GDP

40

60

80

100

06/09 12/09 07/10 01/11 08/11

(b) Daily spot price of West Texas Intermediate, Jan2009 to Jul 2012

Figure 5.3: Two economic time series with an apparent trend

Page 7: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 198

Chaque série temporelle montre une tendance claire. Cependant leur tendanceest de nature très différente. La tendance du PIB est très proche d’une tendancelinéaire, alors qu’il n’y a pas de forme analytique claire pour le prix du pétrole.Ces deux séries temporelles illustrent ce que nous modéliserons par une tendancedéterministe (pour le PIB) ou une tendance stochastique (pour la série de prix).Comme nous le verrons, la nature du trend, déterministe ou stochastique, revêt uneimportance considérable dans la compréhension du phénomène économique observéet pour sa prédiction.

5.2.1 Tendance déterministe

Tendance paramétrique

La première approche consiste à proposer une paramétrisation explicite de latendance. L’idée est de considérer la décomposition

Yt = mt +Xt (5.3)

où mt est une fonction déterministe dépendant seulement du temps t, et Xt estun résidu que nous analyserons plus tard, mais qui a la propriété de ne posséderaucune tendance. Pour préciser cette dernière condition, nous imposerons, danscette décomposition, que E(Xt) = 0 pour tout t.

La fonction déterministe, mt, peut être paramétrisée dans le but d’être estimée.Si l’on considère l’exemple du logarithme du PIB de la figure 5.24, une paramétri-sation linéaire de la tendance semble raisonnable :

mt = β0 + β1t

En remplaçant cette formule dans la décomposition (5.3), notre modèle pour lelog-PIB devient

Yt = β0 + β1t+Xt (5.4)

ou, le modèle pour le PIB (sans log) devient

GDPt = eβ0+β1t+Xt .

Bien entendu, d’autres paramétrisations sont possibles, et cela dépendant despremière visualisations des données. Voici quelques exemples courants de paramé-trisation de tendances temporelles :

– Tendance quadratique : Yt = β0 + β1t+ β2t2 +Xt

– Tendance linéaire avec sauts : Yt = β0 + β′0dt + β1t+ β′

1(t× dt) +Xt, où dtest une variable proxy prenant la valeur 0 si t < t0 et la valeur 1 si t > t0

Pour résumer cette discussion, le modèle avec tendance déterministe paramé-trique prend la forme

Yt = Z ′tβ +Xt (5.5)

Page 8: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 199

où le vecteur Zt dépend seulement du temps et le vecteur β = (β0, . . . , βK)′ contientles paramètres de la tendance. En utilisant cette notation

– Pour la tendance linéaire : Zt = (1, t)′

– POur la tendance quadratique : Zt = (1, t, t2)′

– Pour la tendance linéaitre avec sauts : Zt = (1, dt, t, t× dt)′

Estimation de la tendance paramétrique

Les paramètres du modèle (5.5) peuvent être facilement estimés par OLS ouGLS, à condition que le modèle respecte les hypothèses du modèle linéaire général,qui ont été étudiées aux chapitres précédents :

(i) Le rang de la matrice Z ≡ (Z1, Z2, . . . , ZT )′ est K avec probabilité 1

(ii) Exogénéité stricte : E(Xt|Z) = 0(iii) Normalité conditionnelle des résidus : XT |Z ∼ N (0,ΣT )La condition (i) impose l’absence de colinéarité dans la matrice Z. Cette matrice

dépendant uniquement de notre paramétrisation de la tendance, la condition estrespectée si la tendance mt est identifiable. La condition (ii) a des implicationssur le comportement de la série temporelle Xt conditionnellement à Z. Voyez-vous lesquelles ? (exercice utile) La condition (iii) est une condition maximale dansle but d’être capable de construire des tests et des intervalles de confiance. Noussavons qu’elle n’est pas nécessaire pour avoir la consistance des paramètres estimés,et qu’elle peut être relaxée de plusieurs manières. Nous renvoyons pour cela aucontenu des chapitres précédant la présente discussion.

1450

1500

1550

1600

04/56 01/70 09/83 05/97 01/11

(a) US GDP trend estimation withZt = (1, t)′

40

60

80

100

06/09 12/09 07/10 01/11 08/11

(b) Oil spot price trend estimation withZt = (1, t, t2, t3)′

Figure 5.4: Deterministric trend estimation.

Page 9: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 200

Extension de l’estimateur de White (GLS)

L’estimateur OLS de β, sous les hypothèses indiquées, est tel que

β = (Z ′Z)−1

Z′Y T

où Y T = (Y1, . . . , YT )′. Sa variance conditionnelle est

Var(β|Z) = (Z ′Z)−1

Z′ΣTZ(Z ′

Z)−1 (5.6)

Cette variance ne peut pas être calculée puisqu’elle dépend de la matrice de variance-covariance de Xt, matrice que nous avons notée ici par ΣT . Cette matrice doit êtreestimée en vue de construire des tests statistiques, par exemple sur le vecteur β.

Plus loin dans ce chapitre, nous analyserons la structure du résidu Xt et unemanière intéressante d’estimer ΣT . Nous reviendrons donc ultérieurement sur l’ex-tension de l’estimateur de β.

5.2.2 Elimination d’une tendance stochastique

L’opérateur de différence

L’outil que nous développons dans cette section peut être utilisé lorsque lemodélisateur ne souhaite pas préciser de forme fonctionnelle pour la tendance.

On définit l’opérateur de retard comme la fonction B qui fait correspondre àtoute observation Xt son observation précédente, Xt−1 :

B(Xt) := Xt−1

Cet opérateur peut être utilisé récursivement :

B2(Xt) = B(B(Xt))= B(Xt−1)= Xt−2

et, par induction, nous pouvons écrire

Bd(Xt) = Xt−d

pour tout d.Dans le but de simplifier la notation, nous noterons BXt l’application de l’opé-

rateur de retard sur Xt, sans écrire les parenthèses.On définit également l’opérateur de différence, noté ∇ (“nabla”), et fournissant

le rendement de la série temporelle :

∇Xt := Xt −Xt−1.

En utilisant les deux définitions ensemble on peut écrire

∇Xt = Xt −BXt= (I −B)Xt

Page 10: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 201

où I représente l’opérateur identité. L’opérateur de différence peut lui-même êtreitéré. Par exemple :

∇2Xt = ∇∇Xt= (1−B)[(1−B)Xt]= (1− 2B +B2)Xt= Xt − 2Xt−1 +Xt−2.

Plus généralement, l’opérateur des différences de retard d transforme Xt en sadifférence avec la valeur de la série temporelle au temps t− d :

∇dXt := Xt −Xt−d

et l’identité suivante peut être facilement vérifiée (exercice utile) :

∇dXt := (I −Bd)Xt

Illustrons l’usage de cet opérateur sur la série des prix du pétrole. La figure 5.5motre à nouveau les prix du pétrole. En haut à gauche, la série initiale est repré-sentée, pour la période de janvier 1986 à juillet 2012. En bas à gauche, un segmentde cette série est représentée, pour la période allant de janvier 2000 à janvier 2005.Sur cette période, une tendance globale apparait clairement. Les figures de droite,en vis-à-vis de la série originale, montre l’effet de l’opérateur de différence sur lesséries respectives. Les tendances ont disparu. Les séries temporelles résiduelles (àdroite) montrent cependant quelques éléments structurants, mais la structure n’estpas de nature tendancielle. Les prochaines sections de ce chapitre analyseront endétail la nature des séries résiduelles.

Page 11: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 202

20

40

60

80

100

120

140

06/86 11/91 05/97 11/02 05/08

(a) Spot price from Jan 1986 to Jul2012

-15

-10

-50

510

15

06/86 11/91 05/97 11/02 05/08

(b) Difference operator applied on (a)

20

30

40

50

60

70

02/00 06/01 11/02 03/04 08/05

(c) A segment of the above spot pricesfrom Jan 2000 to Dec 2005

-6-4

-20

24

02/00 06/01 11/02 03/04 08/05

(d) Difference operator applied on (c)

Figure 5.5: Daily spot price of West Texas Intermediate(source : NYMEX)

5.3 Les processus stationnaires

5.3.1 Définition

Dans la section précédente, nous nous sommes occupés de la modélisation descomposantes déterministes d’un modèle additif de décomposition du type Yt =mt +Xt. Le but de la présente section est d’introduire le cadre pour modéliser lacomposante stationnaire Xt.

Considérons une suite de variables aléatoires {Xt}t=0,1,2,.... On dit que cette

Page 12: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 203

suite est stationnaire en moyenne lorsque la moyenne de chacune des variables dela suite est identique :

EXt = EX0 ∀ t = 0, 1, 2, . . .

De même, cette suite est stationnaire en variance lorsque

Var(Xt) = Var(X0) ∀ t = 0, 1, 2, . . .

La définition suivante caractérise les suites qui sont stationnaires en moyenneet dont la structure de covariance reste elle aussi constante.

Définition 5.1. {Xt}t=0,1,2,... est une suite stationnaire au sens faible (ou sta-tionnaire du second ordre) lorsque les trois propriétés suivantes sont simultanémentvérifiées

(i) EXt = µ < ∞ ∀ t ∈ N(ii) EX2

t < ∞ ∀ t ∈ N(iii) Cov(Xs, Xs+t) = Cov(Xs−1, Xs−1+t) = . . . = Cov(X0, Xt) ∀ s, t ∈ N

Dans cette définition, la propriété (i) exprime la stationnarité en moyenne dela suite, (ii) assure que la variance de chaque variable reste finie, et (iii) précise cequ’on entend par "invariance de la structure de covariance". Par cette propriété,on peut introduire la suite

rXh = Cov(Xs, Xs+h)

qui est indépendante de s. Cette suite est la suite des autocovariances de {Xt}et n’est bien définie que si la suite {Xt} est stationnaire du second ordre, doncrespecte (iii). On peut normaliser cette suite et définir la suite des autocorrélations(acf 1) de {Xt} par

ρXt =rXtrX0

.

On peut vérifier les propriétés suivantes 2, valables pour toute suite faiblementstationnaire de variables aléatoires :

• r0 = Var(Xt) = constante

• symétrie : rh = r−h pour tout h

• |rh| 6 r0 ∀ h

Par conséquent, pour la suite des autocorrélations,

• ρ0 = 1

• symétrie : ρh = ρ−h pour tout h

• |ρh| 6 1 ∀ h

1. De l’anglais autocorrelation function.2. Exercice.

Page 13: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 204

Remarque : Une définition plus restrictive de la stationarité

On peut également définir un concept de stationnarité à partir des lois deprobabilité jointe des variables aléatoires de la suite {Xt}.Définition 5.2. La suite {Xt}t=0,1,2,... est stationnaire au sens fort si

f(Xt+h1, Xt+h2

. . . Xt+hk) = f(Xh1

, Xh2, . . . , Xhk

) ∀ t, ∀(h1, . . . , hk), ∀ k

où f(U1, . . . , UN ) représente la densité jointe du vecteur (U1, . . . , UN ).

Cette dernière définition de stationnarité est plus restrictive que le concept destationnarité faible, comme l’indique le lemme suivant.

Lemme 5.1. Si (Xt) est fortement stationnaire et EX2t < ∞, alors Xt est faible-

ment stationnaire. Le réciproque est fausse en général. Toutefois, si (Xt) est Gaus-sien, alors la densité f(Xt1 . . . Xtn) est la densité d’une variable aléatoire Normalemultivariée Nn(µn,Σn) , et les concepts du stationnarité faible et forte coïncident.

Dans ce cours, on se contentera du concept de stationnarité faible, et on adoptela convention qu’un processus stochastique est appelé stationnaire s’il elle est fai-blement stationnaire.

5.3.2 Exemples

Un premier exemple sera donné par un processus bruit blanc, qui constitue enfait l’exemple le plus simple pour un processus stationnaire.

Example 5.1 (Bruit blanc faible). La suite de variables aléatoires {εt}t=0,1,...

constitue un bruit blanc faible (respectivement fort) si les trois propriétés suivantessont respectées.

(i) Eεt = 0 ∀ t ∈ Z ;(ii) Eε2t = σ2 est constante et strictement positive ;(iii) Cov(εt, εs) = 0 si t 6= s (respectivement, les εt sont i.i.d. (c.à.d. indépen-

dants et identiquement distribuées).La figure 5.6 montre des exemples de réalisations de bruits blancs faibles.

Si {εt} est un bruit blanc faible, on notera {εt} ∼ WN(0, σ2). Si {εt} est unbruit blanc fort, on notera {εt} ∼ IID(0, σ2).

Le bruit blanc jouera un rôle prépondérant dans notre modélisation car il inter-vient comme module de base pour construire des processus stationnaires portantdes corrélations intéressantes.

On continue avec deux exemples de processus stationnaires qui représententdes modèles de corrélation non triviaux. Le premier sera un exemple de processus àmoyenne mobile, qui introduit de la corrélation en combinant linéairement plusieursbruits blancs {εt} décalés en temps.

Page 14: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 205

0 100 200 300 400 500

−4−2

02

4

(a) Une réalisation d’un bruit blancGaussien (εt ∼ N(0, 1))

0 100 200 300 400 500

−4−2

02

4

(b) Une autre réalisation du mêmebruit blanc Gaussien

0 100 200 300 400 500

02

46

810

(c) Une réalisation d’un bruit blanc Ex-ponentiel (εt ∼ Exp(1))

0 100 200 300 400 500

02

46

810

(d) Une autre réalisation du mêmebruit blanc Exponentiel

Figure 5.6: Exemples de réalisations de bruits blancs, avec dif-férentes lois de probabilité.

Example 5.2 (Processus à moyenne mobile). Considérons la suite {Xt} définiepour tout t par

Xt = εt + θεt−1

avec εt ∼ WN(0, σ2ε), appelé "suite des innovations", et avec paramètre MA(1)

θ 6= 0. Pour la suite de variables aléatoires Xt, on vérifie que la suite des covariancesest égale 3 à :

rXh =

(1 + θ2) σ2ε si h = 0

θ σ2ε si h = ±1

0 si |h| > 1 .

(5.7)

Puisque cette fonction ne dépend seulement que de h et ne dépend pas de t, on abien que {Xt} est une suite stationnaire au sens faible.

3. Exercice utile.

Page 15: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 206

En divisant la formule pour l’autocovariance par rX0 on obtient pour la suitedes autocorrélations

ρXh =

1 si h = 0

θ/(1 + θ2) si h = ±1

0 si |h| > 1 .

Pour une telle moyenne mobile d’ordre 1 on observe une structure de corrélationnon triviale qui est typiquement caractérisée par le fait que rh = 0 pour |h| > 1.On dit que le processus MA(1) a une mémoire finie de longueur 1.

Des exemples de réalisations de ce processus sont présentés à la figure 5.7.

Le dernier exemple est un processus autorégressif qui s’exprime comme unecombinaison linéaire entre les valeurs des observations Xt et des valeurs du passéde ses observations Xt−1, Xt−2, . . ..

Example 5.3 (Processus autorégressif). Considérons la suite {Xt} définie pourtout t et pour un paramètre |a| < 1 par

Xt = a Xt−1 + εt

avec εt ∼ WN(0, σ2ε), appelée "suite des innovations". La valeur de l’observation

Xt est régressée sur les valeurs du passe Xt−1 menant à une mémoire infinie decette représentation itérative.

Page 16: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 207

0 2 4 6 8 10

−1.0

−0.5

0.00.5

1.0

(a) Fonction d’autocorrélationpour θ = 0.9.

0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

(b) Fonction d’autocorrélationpour θ = −0.9.

0 100 200 300 400 500

−4−2

02

4

(c) Une réalisation du processus MAavec θ = 0.9, et ǫt Gaussien standard

0 100 200 300 400 500

−4−2

02

4

(d) Une réalisation du processus MAavec θ = −0.9, et ǫt Gaussien standard

0 100 200 300 400 500

−4−2

02

4

(e) Une autre réalisation du processusMA avec θ = 0.9, et ǫt Gaussien stan-dard

0 100 200 300 400 500

−4−2

02

4

(f) Une autre réalisation du processusMA avec θ = −0.9, et ǫt Gaussien stan-dard

Figure 5.7: Exemples de réalisations de processus à moyennesmobiles.

Page 17: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 208

0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

(a) Fonction d’autocorrélationpour a = 0.7.

0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

(b) Fonction d’autocorrélationpour a = −0.7.

0 100 200 300 400 500

−4−2

02

4

(c) Une réalisation du processus ARavec a = 0.7, et ǫt Gaussien standard

0 100 200 300 400 500

−4−2

02

4

(d) Une réalisation du processus ARavec a = −0.7, et ǫt Gaussien standard

0 100 200 300 400 500

−4−2

02

(e) Une autre réalisation du processusAR avec a = 0.7, et ǫt Gaussien stan-dard

0 100 200 300 400 500

−4−2

02

4

(f) Une autre réalisation du processusAR avec a = −0.7, et ǫt Gaussien stan-dard

Figure 5.8: Exemples de réalisations de processus autorégres-sifs.

Page 18: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 209

L’exemple suivant est en réalité un contre-exemple important. Il montre que sinous prenons a = 1 dans la définition du processus autorégressif, nous n’obtenonsplus un processus stationnaire.

Example 5.4 (Processus non stationnaire : Marche aléatoire). La suite {Xt} estune marche aléatoire (random walk) lorsque

Xt = X0 +t∑

s=1

εs , où {εs} ∼ WN(0, σ2ε) , (5.8)

et où X0 dénote une valeur initiale quelconque. De façon équivalente, une marchealéatoire peut être définie comme Xt = Xt−1 + εt , t ≥ 1 , où {εs} ∼ WN(0, σ2

ε).On note tout de suite que son espérance EXt est constante et égale à EX0 pourtout t. En plus,

Cov(Xt+h, Xt) = Cov

(X0 +

t+h∑

s=1

εs, X0 +t∑

n=1

εn

)

= Var(X0) +t+h∑

s=1

t∑

n=1

Cov(εs, εn)

= Var(X0) +∑

s

n

σ2ε δsn

= Var(X0) +t∑

s=1

σ2ε = Var(X0) + t · σ2

ε ∀ h ,

où le symbole δ est le delta de Kronecker : Par convention, δts vaut 1 si t = s, et 0si t 6= s .

Donc une marche aléatoire n’est pas stationnaire car la suite des covariancesdépend de t. En fait, on observe en plus que sa variance n’est pas constante maisaugmente en temps t. L’évolution de Xt est aléatoire, et on ne peut pas faire deprévision car il manque une structure adéquate.

Quelques réalisations de marches alétoires peuvent être observées à la figure5.9.

Page 19: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 210

0 100 200 300 400 500

−50

510

15

(a) Marche aléatoire

0 100 200 300 400 500

−10

−50

510

1520

(b) Marche aléatoire

0 100 200 300 400 500

−20

−15

−10

−50

(c) Marche aléatoire

0 100 200 300 400 500

−30

−20

−10

0

(d) Marche aléatoire

Figure 5.9: Réalisations de marches aléatoires.

5.4 Moyenne et autocovariance

Soient X1, . . . , XT une suite de T observations produites par un processus sta-tionnaire Xt de moyenne µ et de fonction d’autocovariance rXh . Dans cette section,nous estimons les deux quantités inconnues µ et rXh .

5.4.1 Estimation de la moyenne

Pour estimer la moyenne (théorique) µ, un estimateur naturel est la moyenneempirique :

µ = XT =1

T

T∑

t=1

Xt.

Si le processus Xt est simplement un bruit blanc, alors la loi des grands nombresassure la convergence de µ vers µ en probabilité. Cependant, la loi des grandsnombres n’est généralement pas valable si les réalisations de Xt ne sont plus iid.Il existe toutefois un résultat analogue pour les variables corrélées, à condition desupposer une dépendance faible entre les variables (c’est-à-dire en imposant unecondition du type

∑h |rh| < ∞).

Page 20: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 211

Proposition 5.1. Si Xt est un processus stationnaire et que XT désigne la moyenneempirique pour T observations de la série, alors

(a) E(XT ) = µ

(b) Var(XT ) =1T

∑|h|<T−1

(1− |h|

T

)rXh

(c) si les Xt sont iid, alors Var(XT ) → 0 lorsque T → ∞.

Démonstration. (a) Exercice.(b) On a directement :

T · Var(XT ) = T−1T∑

i,j=1

Cov(Xi, Xj)

= T−1T∑

i=1

T−i∑

h=1

Cov(Xi, Xi+h)

= T−1T∑

i=1

T−i∑

h=1

rXh

=∑

|h|<T−1

(1− |h|

T

)rXh .

(c) Sous l’hypothèse selon laquelle les Xt sont iid, on a :Var(XT ) = T−1

VarX1= T−1 rX0→ 0 lorsque T → ∞.

On peut montrer que (c) reste vrai même lorsque les Xt sont corrélés, en sup-posant que rXh → 0 lorsque h → ∞ (voir Brockwell and Davis (1991), théorème7.1.1). Cette propriété est particulièrement utile pour construire des intervalles deconfiance exacts si on connaît la loi de Xt et des intervalles de confiance asymp-totiques si on ignore la loi de Xt. Par exemple, si on sait que le processus linéaire{Xt} est Gaussien, alors

√T(XT − µ

) d∼ N(0, T · Var(XT )

)(5.9)

Supposons que l’on désire effectuer un test bilatéral sur la moyenne :{

H0 : µ = µ0

H1 : µ 6= µ0

au niveau α fixé. Par (5.9), on conclut au rejet de H0 si

XT − µ√Var(XT )

> zα/2

Page 21: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 212

ouXT − µ√Var(XT )

< −zα/2

où zα/2 est le quantile α/2 d’une variable aléatoire normale centrée réduite. Unintervalle de confiance au niveau 1− α est donc donné par

[XT − zα/2

√VarXT ; XT + zα/2

√VarXT

].

Lorsqu’on ignore la loi de Xt, on utilise la distribution asymptotique√T (XT −

µ), donnée par 4 :√T (XT − µ)

L−→ N(0,∑

h∈ZrXh

)

lorsque T → ∞. On construit alors des intervalles de confiance asymptotiques parla même technique (exercice).

5.4.2 Estimation de la fonction d’autocovariance

Pour construire un estimateur de la fonction d’autocovariance théorique rXh ,rappelons que si (U1, V1), . . . , (Un, Vn) sont des observations bivariées iid de variancefinie, un estimateur de la covariance entre U et V est donné par :

1

n

n∑

i=1

(Ui − Un)(Vi − V n)

Dès lors, on estime rXh par la fonction d’autocovariance empirique

rXh =1

T

T−h∑

t=1

(Xt −XT )(Xt+h −XT )

défini pour 0 6 h 6 T −1. (Pour les valeurs négatives de h on utilise la symétrie del’autocovariance théorique rXh , et on définit rX(h) = rX(−h) pour h < 0.) Au lieude normaliser par T , il peut arriver que l’on normalise par (T −h). Cet estimateura l’avantage d’être un estimateur sans biais de l’autocovariance rXh théorique (sonespérance est exactement égale à rXh ).

Sous certaines conditions générales, les propriétés de rXa sont du même typeque pour l’estimateur de la moyenne : rXh est un estimateur consistant et asymp-totiquement non biaisé :

ErXh → rXh quand T → ∞.

4. Une démonstration peut être trouvée dans le chapitre 7 de Brockwell and Davis(1991).

Page 22: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 213

Le même type d’estimateur peut être utilisé pour estimer la fonction d’autocorré-lation. Dans ce cas, on utilisera

ρXh =rXhrX0

qui est appelée fonction d’autocorrélation empirique.La proposition suivante précise un théorème central limite pour ρXh qui sera

très utile pour construire des tests sur la série des autocorrélations empiriques.

Proposition 5.2. Sous des conditions générales, pour tout h ≥ 1, on a, lorsqueT → ∞ :

√T (ρXh − ρXh )

L−→ N (0,Σ) (5.10)

où ρXh et ρXh représentent respectivement les vecteurs (ρX1 , . . . , ρXh ) et (ρX1 , . . . ,ρXh ) et où Σ est la matrice de covariance asymptotique, dont l’élément (i, j) estdonné par la formule de Bartlett

Σij =∑

k∈ZρXk+i ρ

Xk+j + ρXk−i ρ

Xk+j + 2ρXi ρXj (ρXk )2

− 2ρXi ρXk ρXk+j − 2ρXj ρXk ρXk+i. (5.11)

La démonstration n’est pas développée dans ce cours, et peut être trouvée, parexemple, dans Brockwell and Davis (1991).

5.4.3 Illustration : tester un bruit blanc indépendant

Supposons que l’on observe un échantillon X1, . . . , XT et que l’on désire savoirs’il s’agit de la réalisation d’un processus Xt ∼ IID (0, σ2). Le test à réaliser estdonc {

H0 : Xt ∼ IID (0, σ2)

H1 : non H0.

Nous allons voir que la fonction d’autocorrélation empirique fournit une statis-tique de test qui permettra de répondre à cette question. En effet, si l’hypothèseH0 est vraie, alors le processus Xt est IID(0, σ2) et sa fonction d’autocorrélationest égale à :

ρXh =

{1 si h = 0

0 si h > 0

par définition. En conséquence, toujours sous H0, la distribution asymptotique deρXh est donnée par la relation (5.10) dans laquelle on a, pour un bruit blanc fort :

Σ =

1 0 . . . 0

0 1...

.... . . 0

0 . . . 0 1

= Id

Page 23: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 214

0 100 200 300 400 500

−4−2

02

4

(a) Série chronologique observée

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

(b) Autocorrélations empiriques

Figure 5.10: Fonction d’autocorrélation empirique d’un bruitblanc simulé (T = 500 observations). Les droites représentent labande de confiance au niveau 95 %.

Pour h > 0, toutes les composantes du vecteur ρhX sous H0 sont telles que :

ρXia∼ N (0, T−1)

et on construit, comme dans le cas du test sur la moyenne, un intervalle de confianceau niveau 1− α : [−z1−α/2√

T,z1−α/2√

T

].

Au niveau α = 5%, zα = 1.96 et on ne rejette pas H0 si 95 % des observationsh > 0 se trouvent bien dans cet intervalle (voir figure 5.10).

5.5 Les processus ARMA

Dans les exemples précédents, nous avons rencontré les processus à moyennemobile (MA) et les processus autorégressifs (AR). Les modèles ARMA sont unecombinaison de ces deux types de modèle. Nous définissons tout d’abord les modèlesMA et AR en toute généralité.

5.5.1 Les modèles MA(q)

La définition suivante généralise la définition du processus à moyenne mobiledonnée ci-dessus.

Définition 5.3. La série chronologique Xt est un processus à moyenne mobiled’ordre q, noté MA(q), lorsqu’il existe une représentation

Xt = εt + θ1εt−1 + θ2εt−2 + . . .+ θqεt−q

où εt est un bruit blanc de variance σ2ε et (θ1, . . . , θq, σ

2ε) sont les paramètres du

modèle.

Page 24: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 215

La première question que nous nous posons est de savoir si ce processus eststationnaire. On a bien entendu que EXt = 0 et, pour ce qui est de la structure dela fonction d’autocorrélation, on adapte (5.7) pour obtenir 5 :

rXh =

{σ2ε

∑q−hk=0 θk θk+h si 0 ≤ h ≤ q

0 si h > q(5.12)

avec la convention θ0 = 1. En conséquence, tout processus à moyenne mobile estautomatiquement un processus stationnaire.

La fonction d’autocorrélation d’un processus MA(q) s’ensuit automatiquement :

ρXh =

{ θh+θ1θh+1+...+θq−hθq1+θ2

1+θ2

2+...+θ2q

si 1 ≤ h ≤ q

0 sinon(5.13)

0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

(a) Autocorrélation théorique.

0 50 100 150 200

−3−2

−10

12

34

(b) Une simulation.

0 5 10 15 20

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

(c) Autocorrélation empirique.

Figure 5.11: Processus MA(2) avec θ1 = 0.9, θ2 = −0.4 etεt ∼ GWN(0, 1).

Diverses fonctions d’autocorrélations ainsi qu’une simulation du processus MA(q)correspondant sont données aux figures 5.11(a-b) et 5.12(a-b). Insistons sur le faitque si h > q, alors la fonction d’autocorrélation d’un processus MA(q) s’annule.Cette observation sera utile pour la modélisation : si, à partir de données X1 . . . XT ,la fonction d’autocorrélation empirique n’est pas significativement différente de zéroau-delà d’un certain nombre q0, on sera alors guidé pour choisir d’ajuster un mo-dèle MA(q0) aux données observées. A titre d’exemple, les figures 5.11(c) et 5.12(c)présentent la fonction d’autocorrélation empirique calculée à partir des données si-multanées aux figures 5.11(b) et 5.12(b). Les bandes de confiance au niveau 5%

5. Exercice utile.

Page 25: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 216

0 2 4 6 8 10

−1.0

−0.5

0.0

0.5

1.0

(a) Autocorrélation théorique.

0 100 200 300 400

−4−2

02

46

(b) Une simulation.

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

(c) Autocorrélation empirique.

Figure 5.12: Processus MA(4) avec θ1 = 0.7, θ2 = 0, θ3 = −0.5,θ4 = 0.9 et εt ∼ GWN(0, 1).

sont indiquées en pointillés. Il faut remarquer qu’à partir de la fonction d’autocor-rélation empirique, nous pouvons avoir une idée de l’ordre q du processus qui agénéré les données.

Inversibilité des processus MA

En utilisant l’opérateur de retard B, on obtient l’écriture plus courte suivantedu processus MA(q) :

Xt = θ0εt + θ1Bεt + θ2B2εt + . . .+ θqB

qεt

=

q∑

j=0

θjBjεt

où l’on a à nouveau utilisé la convention θ0 = 1 et B0 = la fonction identité. Unenotation usuelle consiste à définir le polynôme d’ordre q

Θ(z) =

q∑

j=0

θjzj

où les coefficients θj sont les coefficients du modèle MA(q). Avec cette notation, lemodèle MA(q) s’écrit de façon équivalente

Xt = Θ(B)εt (5.14)

où Θ(B) =∑q

j=0 θjBj .

Page 26: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 217

L’intérêt de la notation polynomiale Θ(z) provient du problème suivant. Sup-posons que nous ayions trouvé des estimateurs des paramètres du modèle MA(q),que nous noterons θ1, . . . , θq. (Une procédure d’estimation sera dérivée ci-dessous.)Cet estimateur nous offre donc un estimateur du polynôme Θ, que nous noteronsΘ(z) =

∑qj=0 θjz

j . Après avoir estimé le modèle MA(q), il est utile de calculerles résidus après estimation, par exemple pour mesurer l’ajustement du modèle(comme dans le cas du modèle de régression linéaire, voir par exemple la définitiondu R2). Pour obtenir ces résidus après estimation, nous calculons

εt =[Θ(B)

]−1Xt

c’est-à-dire que l’on applique aux données observées Xt l’inverse du polynôme Θ.Or, l’inverse d’un polynôme n’étant pas partout bien défini, une hypothèse estformulée sur le polynôme Θ afin que les résidus puissent être calculés. Cette hypo-thèse s’appelle la condition d’inversibilité. Elle est caractérisée dans la propositionsuivante.

Proposition 5.3. Le processus MA(q) défini en (5.14) est inversible s’il existeune représentation

εt =∞∑

j=0

πjXt−j

où πj sont des coefficients pouvant être calculés à partir des θj.Une condition nécessaire et suffisante d’inversibilité est que le polynôme Θ(z)

ne s’annule jamais pour tout z ∈ C tel que |z| 6 1 (lire : le module de z est pluspetit ou égal à 1).

Cette proposition est illustrée par l’exemple suivant.

Exemple

Considérons le processus MA(2)

Xt = εt + 0.2εt−1 − 0.4εt−2 εt ∼ WN(0, σ2ε)

pouvant s’écrire Xt = Θ(B)εt avec Θ(z) = 1 + 0.2z − 0.4z2. Les racinesdu polynôme Θ sont approximativement égales à -1.35 et 1.85. Comme cesracines sont en dehors de l’intervalle ]− 1, 1[, le processus considéré est bieninversible.

5.5.2 Les modèles AR(p)

Il est bien évidemment possible de généraliser de la même façon l’exemple 5.3du processus autorégressif.

Page 27: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 218

Définition 5.4. La série chronologique Xt est un processus autorégressif d’ordrep, noté AR(p), s’il existe une représentation

Xt = a1Xt−1 + . . .+ apXt−p + εt

où εt est un bruit blanc de variance σ2ε et (a1, . . . , ap, σ

2ε) sont les paramètres du

modèle.

L’exemple 5.3 illustre un processus AR(1). Ce processus tire son nom de l’ana-logie de sa formule avec celle du modèle de régression multiple. Il s’agit cependantde la régression de Xt sur ses valeurs passés, d’où le nom «autorégression».

À nouveau, on se demande tout d’abord si le processus ainsi défini est unprocessus stationnaire. La réponse à cette question nécessite de calculer la formulede la fonction d’autovariance générale d’un processus AR(p), et ceci n’est pas aisé.Il est par contre plus facile de raisonner sur un processus plus simple d’ordre 1,donc un AR(1).

Proposition 5.4. Si Xt est un processus autorégressif d’ordre 1, donc si

Xt = aXt−1 + εt εt ∼ WN(0, σ2ε)

alors Xt est stationnaire si |a| 6= 1. De plus, si |a| < 1, on a les formules suivantes 6

pour

• L’espérance : EXt = 0

• La variance :

VarXt =σ2ε

1− a2

• La fonction d’autocovariance :

rXh = ahσ2ε

1− a2

À partir de ces formules pour la variance et pour la fonction d’autocovariance,on voit clairement que les valeurs a = ±1 ne définissent pas un processus station-naire. Si a = 1, on retrouve d’ailleurs la définition de la marche alétoire, donc nousavons vu à l’exemple 5.4 qu’il ne s’agissait pas d’un processus stationnaire.

Par ailleurs, un modèle autorégressif étant défini de façon récursive, sa définitionpeut toujours s’écrire comme une combinaison linéaire de bruits blancs. Pour le voir,on considère à nouveau le cas simple du modèle AR(1). En utilisant la récursionXt−1 = aXt−2 + εt dans la définition, on trouve

Xt = a2Xt−2 + εt + aεt−1 εt ∼ WN(0, σ2ε)

6. Exercice utile.

Page 28: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 219

et, en continuant de la sorte, on trouve finalement

Xt = εt + aεt−1 + a2εt−2 + . . . , εt ∼ WN(0, σ2ε)

=∞∑

j=0

ajεt−j , εt ∼ WN(0, σ2ε).

Cette formule fait apparaître la série∑∞

j=0 aj qui ne converge que si |a| < 1. En

particulier, si on applique l’opérateur d’espérance à gauche et à droite de l’équa-tion, on obtient EXt =

∑∞j=0 a

jEεt−j . On peut alors utiliser que pour tout bruitblanc Eεt−j = 0, ce qui permet de conclure EXt = 0 seulement si la série

∑∞j=0 a

j

converge. Pour cette raison, on ne considère en pratique que les processus auto-régressifs tels que |a| < 1. Les processus respectant cette condition sont appelésprocessus causaux.

Nous allons à présent généraliser le concept de processus stationnaire causal aucas général d’un processus AR(p) pour un ordre p quelconque. Pour ce faire, nousintroduisons à nouveau une définition alternative du processus AR(p) à l’aide del’opérateur de retard. En analogie avec développement effectué ci-dessus dans lescadre des processus à moyenne mobile, un processus AR(p) peut s’écrire

A(B)Xt = εt εt ∼ WN(0, σ2ε) (5.15)

où B est l’opérateur de retard, et A(·) est le polynôme

A(z) = 1 + a1z + . . .+ apzp .

La proposition suivante résume les conditions que nous appliquons sur les coef-ficients aj du processus autorégressif, afin d’obtenir un processus stationnaire etcausal.

Proposition 5.5. Le processus AR(p) défini en (5.15) est stationnaire et causals’il peut s’écrire comme une combinaison linéaire de bruits blancs de la forme

Xt =∞∑

j=0

φjεt−j εt ∼ WN(0, σ2ε) (5.16)

où les coefficients φj sont des coefficients pouvant être retrouvés à partir des para-mètres aj du modèle autorégressif.

Une condition nécessaire et suffisante de stationarité et de causalité est que lepolynôme A(z) ne s’annule jamais pour tout z ∈ C tel que |z| 6 1.

5.5.3 Comment déterminer l’ordre d’un processus AR ?

Dans le cas d’un processus à moyenne mobile, on a vu que la fonction d’au-tocorrélation offre un outil pertinent pour trouver l’ordre q du processus (voir enparticulier les figures 5.11 et 5.12). Qu’en est-il pour un processus autorégressif ?

Page 29: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 220

Considérons le processus AR(1) suivant :

Xt = 0.9 Xt−1 + εt , {εt} ∼ WN(0, 1) . (5.17)

La fonction d’autocorrélation théorique de ce processus est donnée par ρXh = (0.9)h

(exercice) et est représentée à la figure 5.13. Nous constatons que la fonction d’au-tocorrélation de ce processus ne s’annule pas, mais tend asymptotiquement verszéro lorsque l’horizon h augmente. Essayons de voir pourquoi cette fonction ne

0 20 40 60 80 100

-20

24

(a) 100 réalisation du processus (5.17)

Lag

AC

F

0 5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Series : x

(b) Fonction d’autocorrélation estiméedu processus (5.17)

Figure 5.13: Analyse des autocorrélations du processus (5.17)

s’annule pas. L’équation (5.17) montre une corrélation linéaire entre Xt et Xt−1

égale à 0.9. Par ailleurs, (5.17) s’applique également à Xt−1, ce qui permet d’écrireXt−1 = 0.9 Xt−2+εt−1. En insérant cette dernière équation dans (5.17), on obtientalors

Xt = (0.9)2 Xt−2 + 0.9 εt−1 + εt−1 , {εt} ∼ WN(0, 1) ,

et on observe qu’il existe une corrélation linéaire de (0.9)2 entre Xt et Xt−2. Onpeut bien entendu répéter ce raisonnement pour comprendre que la structure del’équation autorégressive implique que la corrélation linéaire entre toutes les don-nées ne s’annule pas. (Pourquoi ce phénomène n’apparaît-il pas pour les processusMA?)

Cette remarque peut également être observée sur les scatter plots de la figure(5.14). Un scatter plot consiste à représenter les données suivant deux axes re-présentant Xt et Xt−1. Ainsi, la pente de droite de régression linéaire ajusté auxdonnées du scatter plot constitue un estimation de la dépendance linéaire entre Xt

et Xt−1, donc la fonction d’autocorrélation au lag 1. Les deux scatter plot de lafigure (5.14) représentent (Xt, Xt−1) et (Xt, Xt−2), avec les droites de régressionXt = 0.9 Xt−1 et Xt = (0.9)2 Xt−2.

Page 30: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 221

X(t-1)

X(t

)

-2 0 2 4

-20

24

(a) Scatterplot (Xt−1, Xt) de la figure5.13(a) et la droite Xt = 0.9 Xt−1

X(t-2)

X(t

)

-2 0 2 4

-20

24

(b) Scatterplot (Xt−2, Xt) de la figure5.13(a) et la droite Xt = (0.9)2 Xt−2

Figure 5.14: La pente de la droite de régression des scatterplotsest une estimation de l’autocovariance

La fonction d’autocorrélation partielle

Les observations précédentes montrent que la fonction d’autocorrélation n’estpas l’outil idéal pour analyser un processus autorégressif. On peut trouver unmeilleur outil en se basant sur l’observation suivante : pour le processus (5.17),on sait que la corrélation entre Xt et Xt−1 est égale à ρX1 = 0.9. Au lieu d’étudierla corrélation entre Xt et Xt−2, l’idée est plutôt de considérer la corrélation entreles variables

Xt − 0.9 Xt−1 Xt−2 − 0.9 Xt−1

Empiriquement, cela signifie qu’on étudie la corrélation entre Xt et Xt−2 lorsquel’influence linéaire de Xt−1 a été ôtée. Un simple calcul (exercice) montre que, pourle processus (5.17) :

Corr(Xt − 0.9 Xt−1, Xt−2 − 0.9 Xt−1) = 0.

On dit alors que l’autocorrélation partielle entre Xt et Xt−2 est zero.Ce dernier résultat peut être vérifié empiriquement sur notre exemple. Les fi-

gures 5.15(a) et (b) montrent le scatterplot des observations (Xt−1, Xt) et (Xt−2, Xt)respectivement. La droite de régression estimée est également superposée aux don-nées. La pendre de cette droite est un estimateur de la covariance entre les ob-servations. Dans la figure 5.15(c) nous représentons également le scatterplot entreles observations (Xt − 0.9 Xt−1, Xt−2 − 0.9Xt−1), dans lequel nous ne voyons plusaucune relation linétaire apparente.

Plus généralement, on définit la fonction d’autocorrélation partielle entre Xt etXt−h comme la corrélation entre Xt et Xt−h après avoir enlevé l’influence linéairedes variables aléatoires intermédiaires Xt−1, Xt−2, . . . , Xt−h+1. On note αX

h l’auto-

Page 31: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 222

X(t-1)

X(t

)

-2 0 2 4

-20

24

(a) Scatterplot (Xt−1, Xt)

X(t-2)

X(t

)

-2 0 2 4

-20

24

(b) Scatterplot (Xt−2, Xt)

X(t-2)-0.9 X(t-1)

X(t

)-0.

9 X

(t-1

)

-2 -1 0 1 2 3

-2-1

01

23

(c) Scatterplot (Xt −0.9Xt−1, Xt−2 − 0.9Xt−1)

Figure 5.15: AR(1) model with a = 0.9 and εt ∼ GWN(0, 1).

corrélation partielle au lag (ou retard) h de la série temporelle Xt. L’abréviationde la fonction d’autocorrélation partielle est PACF. 7

La fonction d’autocorrélation partielle d’un processus autorégressif

Avant de donner une définition plus formelle de la fonction d’autocorrélationpartielle, il est utile de préciser en quoi l’autocorrélation partielle est un outil adaptéà l’analyse des processus autorégressifs.

Proposition 5.6. La fonction d’autocorrélation partielle d’un processus Xt ∼AR(p) est telle que

αXh = 0 pour tout h > p .

Cette proposition montre que l’autocorrélation partielle d’un processus AR jouele même rôle que l’autocorrélation d’un processus MA . En effet :

• Si Xt ∼ MA(q), alors ρXh = 0 pour tout h > q .

• Si Xt ∼ AR(p), alors αXh = 0 pour tout h > p .

Cette observation cruciale permet de construire des tests sur la fonction d’autocor-rélation partielle afin de déterminer l’ordre d’un modèle AR, exactement commel’observation de la fonction d’autocorrélation permet de choisir l’ordre d’un modèleMA. La figure 5.16 illustre cette situation.

5.5.4 Les modèles ARMA(p, q)

Les deux structures de processus, MA et AR, peuvent coexister au sein d’unmême modèle. La classe ainsi définie porte le nom générique de ARMA(p, q).

Définition 5.5. Une série chronologique Xt est appelée ARMA(p, q), p > 0, q > 0s’il existe des constantes a1 . . . ap (ap 6= 0) et θ1 . . . θq (θq 6= 0) et un processus

7. De l’anglais Partial Autocorrelation Function.

Page 32: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 223

0 20 40 60 80 100

-4-2

02

4

Lag

0 5 10 15 20

-0.8

-0.4

0.0

0.4

Figure 5.16: La fonction empirique d’autocorrélation partielledu processus suggère d’ajuster un modèle AR(2) aux observations.Attention, dans cette représentation graphique, l’élément α0 = 1n’a pas été représenté.

{εt} ∼ WN (0, σ2ε) tels que

Xt −p∑

k=1

ak Xt−k = εt +

q∑

j=1

θj εt−j . (5.18)

Le processus {εt} est appelé processus des innovations.

Les considérations précédentes se généralisent à la classe des processus ARMA.En particulier, une définition équivalente est fournie grâce aux polynômes Θ(z) etA(z) :

A(z)Xt = Θ(z)εt (5.19)

et les conditions de stationarité, de causalité et d’inversibilité requièrent que lesracines (en général complexes) de A(z) et de Θ(z) ne soient pas dans l’intervalle[−1, 1].

Les processus ARMA sont appelés processus linéaires car ils peuvent toujoursêtre reformulés sous la forme d’une combinaison linéaire de bruits blancs.

Pour choisir l’ordre d’un modèle mixte ARMA, la double observation de l’acf etde la pacf seront nécessaires. Prenons quelques exemples. La figure 5.17 représentel’acf et la pacf d’un processus observé. L’observation de l’acf montre que ρX0 et ρX1

Page 33: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 224

sont significativement non nuls, et ρXh ne sont pas significativement non nuls pourh > 1. Par ailleurs, on oberve une décroissance rapide de la pacf. On choisit doncun modèle MA(1), puisque l’acf et la pacf théoriques d’un MA(1) se comportentthéoriquement de cette façon.

La figure 5.18 présente une acf et une pacf qui décroissent tout deux lente-ment. On conclut donc en un ARMA(1,1), puisque l’acf et la pacf théoriques d’unARMA(1,1) se comportent théoriquement de cette façon. (Ce sont les parties de cesdeux fonctions acf et pacf qui décroissent le plus lentement, la partie AR pour l’acfet la partie MA quant à la pacf, qui dominent alors le comportement.) Observezégalement la figure 5.19 : quel modèle à ajuster choisiriez-vous ?

Lag

AC

F

0 5 10 15 20

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

(a) Autocorrélation empirique

Lag

Par

tial A

CF

0 5 10 15 20

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

(b) Autocorrélation partielle empirique

Figure 5.17: Quel modèle choisir compte tenu de ces deuxgraphes ?

Lag

AC

F

0 5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

(a) Autocorrélation empirique

Lag

Par

tial A

CF

0 5 10 15 20

-0.2

-0.1

0.0

0.1

0.2

0.3

(b) Autocorrélation partielle empirique

Figure 5.18: Quel modèle choisir compte tenu de ces deuxgraphes ?

Page 34: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 225

Lag

AC

F

0 5 10 15 20

-0.5

0.0

0.5

1.0

(a) Autocorrélation empirique

Lag

Par

tial A

CF

0 5 10 15 20

-0.8

-0.6

-0.4

-0.2

0.0

0.2

(b) Autocorrélation partielle empirique

Figure 5.19: Quel modèle choisir compte tenu de ces deuxgraphes ?

5.6 Estimation dans les modèles ARMA

Considérons un modèle causal ARMA(p, q) de moyenne nulle

Xt = a1Xt−1+ . . .+apXt−p+ θ0εt+ . . .+ θqεt−q , {εt} ∼ WN(0, σ2ε) , (5.20)

où θ0 = 1 et dans lequel on supposera que :

A(z) 6= 0 pour |z| 6 1

et

Θ(z) 6= 0 pour |z| 6 1 .

Notre objectif est à présent d’estimer les vecteurs colonnes ap = (a1, . . . , ap)′ et

θq = (θ1, . . . , θq)′.

Dans un premier temps, supposons que l’on connaisse la distribution de Xt pourtout t. Nous supposerons que le processus {Xt} est gaussien, c’est-à-dire que toutesles fonctions de distributions de {Xt} sont multivariées normales. Cette hypothèsenous permettra d’écrire simplement la fonction de vraisemblance du modèle qui estla probabilité d’observer XT = (X1, . . . , XT )

′ sous l’hypothèse gaussienne :

L(RXT ) = (2π)−T/2| detRX

T |−1/2e−1

2X

T (RXT )−1

XT

où RXT est la matrice de covariance dont l’élément (i, j) est donné par E(XiXj) =

rX|i−j|. Cette matrice est constituée par la fonction d’autocovariance rXh .Notons que la fonction d’autocovariance peut s’écrire en fonction des para-

mètres ap, θq, σ2ε . On peut donc également exprimer R

XT en fonction de ces para-

mètres :

RXT = R

XT (ap, θq, σ

2ε)

Page 35: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 226

et la fonction de vraisemblance du processus gaussien s’écrit :

L(ap, θq, σ2ε) = L(RX

T (ap, θq, σ2ε)) (5.21)

Si {Xt} n’est pas un processus gaussien, on ne connaît pas en général les fonc-tions de distribution de {Xt} et la fonction de vraisemblance n’est plus disponible.Toutefois, même dans ce cas, on utilisera (5.21) comme une mesure de la qualitéde l’ajustement de la matrice de covariance aux données et on considérera cettefonction pour trouver des estimateurs ap, θq et σ2

ε .Ces estimateurs sont donnés par la maximisation de L(ap, θq, σ2

ε). Il est alorspossible de montrer que, si le processus (5.20) est causal, inversible et défini avec{εt} ∼ IID(0, σ2

ε), alors le processus

Yt =

p∑

i=1

ai Xt−i + εt +

q∑

j=1

θj εt−j , {εt} ∼ IID(0, σ2ε) ,

est lui-même stationnaire causal et inversible. Il est également possible de démon-trer un théorème de normalité asymptotique de ces estimateurs qui sont, commenous l’avons déjà indiqué, asymptotiquement efficaces.

En pratique, les estimateurs du maximum de vraisemblance sont à nouveautrouvés numériquement par des algorithms itératifs

5.7 Prévision dans les modèles stationnaires

Nous traitons tout d’abord la prévision des valeurs futures Xt+1, XT+2, . . .d’une série chronologique linéaire générale (pas forcément ARMA). Ensuite, nousvoyons en particulier l’équation du prédicteur dans le cas d’observations prove-nant d’un processus stationnaire ARMA(p, q), causal, de moyenne nulle, et donton connaît l’ordre (p, q) ainsi que les coefficients. Bien entendu, en pratique, lors-qu’on est face à T observations, il faudra ajuster un modèle adéquat, en choisissantnon seulement l’ordre, d’après l’observation de la fonction d’autocovariance empi-rique et les méthodes que nous décrirons dans le prochain chapitre, mais égalementen estimant les coefficients du modèle par les techniques que nous venons de voir.

5.7.1 Equations générales du prédicteur linéaire

Nous allons considérer les prédictions linéaires de la série étudiée. Cela signifieque, si on observe les réalisations X1, . . . , XT de la série {Xt}, on cherche à prédirela valeur XT+h (où h est un nombre positif fixé) à partir d’une combinaison linéairedes observations. Ainsi, en notant XT+h la valeur prévue au temps t+ h de {Xt},on étudiera les prédictions qui s’écrivent sous la forme :

XT+h = k0 + k1XT + . . .+ kTX1. (5.22)

Page 36: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 227

Les coefficients k0, . . . , kT dans cette expression sont choisis de telle sorte que laprédiction XT+h soit la plus proche possible de la véritable réalisation XT+h duprocessus en T + h.

Pour mesurer cette erreur de prédiction à minimiser, considérons l’erreur qua-dratique moyenne de prévision définie par :

S(k) = E(XT+h − k0 − k1XT − . . .− kTX1)2 (5.23)

Les coefficients k = (k1, . . . , kT )′ dans (5.22) seront choisis tels qu’ils minimisent

l’erreur S(k). Ces coefficients forment donc la solution d’un système de T équationscorrespondantes à chaque dérivée partielle de S(k). Ce système peut s’écrire sousla forme suivante

E

[XT+h − k0 −

∑Ti=1 ki Xn+1−i

]= 0

E

[(XT+h − k0 −

∑Ti=1 ki XT+1−i

)XT+1−j

]= 0 j = 1, . . . , T.

La première équation donne k0 = 0, qui correspond à l’hypothèse que le processusest à moyenne nulle. Quant aux T −1 équations suivantes, elles peuvent se réécrire(avec k0 = 0) :

rXh−1+j −T∑

i=1

ki rX|i−j| = 0 j = 1, . . . , T,

ou encore, en notation matricielle :

RXT kT = r

XT (h) (5.24)

où kT = (k1, . . . , kT )′, rXT (h) = (rXh , . . . , rXh+T−1) et R

XT est la matrice T × T de

covariance dont l’élément (i, j) est :

(RXT )i,j = rX|i−j| i, j = 1, . . . , T.

L’équation (5.24) résout en principe le problème de la prédiction. Connaissantla fonction d’autocovariance du processus (qui, en pratique, devra être estimée), laprédiction XT+h est donnée par la relation (5.22) avec des coefficients kT tels que

kT = (RXT )−1

rXT (h) .

Remarquons que le prédicteur nécessite l’inversion de la matrice RXT , il faut donc

que cet inverse existe 8.

8. On peut montrer que cette matrice est inversible si rX0 > 0 et rXh → 0 pour |h| → ∞,et ces conditions sont vérifiées pour un processus linéaire stationnaire.

Page 37: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 228

5.7.2 Algorithme de Durbin-Levinson∗

Même si, formellement, nous avons trouvé les équations de prédiction, il resteà inverser une matrice T ×T pour trouver les coefficients de (5.22). Cette inversionest, pour un processus linéaire, théoriquement toujours possible mais parfois difficileet coûteuse en temps, surtout si le nombre T d’observations disponibles est élevé.

Dans cette perspective, il est utile de développer des algorithmes qui décriventune méthode d’inversion plus rapide.

L’idée de l’algorithme de Durbin-Levinson est que, pour prédire la valeur de lasérie au temps T +h, on pourrait utiliser une prédiction de la série au T +h−1. Enremontant ainsi dans l’intervalle de temps de prédiction, cet algorithme proposele schéma de prédiction suivant : à partir des T observations, on évalue XT+1. Apartir des T observations auxquelles on ajoute XT+1, on évalue XT+2, et ainsi desuite jusqu’à XT+h pour le h souhaité. Pour la première étape de cette démarche,on trouve, en notant φT i = ki dans (5.22) :

XT+1 = φT1 XT + . . .+ φTT X1 . (5.25)

De plus, on peut montrer 9 que l’erreur quadratique moyenne de prédiction estégale à :

vT = E(XT+1 − XT+1)2 (5.26)

= rX0 − φ′T r

XT ,

où φT = (φT1, . . . , φTT )′.

L’algorithme de Durbin-Levinson, énoncé ci-dessous, permet d’exprimer les co-efficients φT en fonction des coefficients φT−i. Ainsi, pour prédire XT+1, on utiliserales coefficients φT trouvés pour cet algorithme. Récursivement, pour trouver XT+2,on aura besoin des coefficients φT+1 que l’on calcule à partir de φT , et ainsi de suite.

Proposition 5.7. Si {Xt} est un processus stationnaire de moyenne zéro et defonction d’autocovariance rXh telle que rX0 > 0 et rXh → 0 lorsque h → ∞, alors lescoefficients φTj et les erreurs quadratiques moyennes de prédiction hT définis par(5.25) et (5.26) satisfont l’algorithme suivant :

• Étape 1 : φ11 = rX1 /rX0 , v0 = rX0

• Étape T :

1. φTT =

[rXT −

T−1∑j=1

φT−1,jrXT−j

]v−1T−1

2.

φT1

...

φT,T−1

=

φT−1,1

...

φT−1,T−1

− φTT

φT−1,T−1

...

φT−1,1

9. Exercice utile.

Page 38: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 229

3. vT = vT−1(1− φ2TT ).

Démonstration. voir Brockwell and Davis (1991). �

Il est bien clair qu’en remplaçant les autocovariances rXh par les acf empiriquesrXh on trouve la réalisation en pratique, l’algorithme de Durbin-Levinson empiriqueavec des coefficients empiriques φT = (φT1, . . . , φTT ) et un estimateur de l’erreurde prédiction vT .

5.7.3 Prédiction d’un processus autorégressif

Supposons que l’on observe T réalisations du processus AR(p) stationnaire,causal et de moyenne nulle. Le prédicteur linéaire de la réalisation suivante, c’est-à-dire au temps T +1, est noté XT+1 et est défini par (5.22). L’erreur de prévision(5.23) s’écrit dans ce cas :

S(k) = E

(T∑

i=1

kiXT+1−i − εT+1 −p∑

i=1

aiXT+1−i

)2

=T∑

i,j=1

kirX|i−j|kj + σ2

ε +

p∑

i,j=1

airX|i−j|aj − 2

T∑

i=1

p∑

j=1

ajrX|i−j|ki.

La dérivée de S(k) suivant k1, . . . , kT mène au système :

(p∑

i=1

(ki − ai)rX|i−l|

)kl +

T∑

i=1+p

kirX|i−l|kl = 0 l = 1, . . . , T

et donc à la solution

k = (a1, . . . , ap, 0, . . . , 0).

On peut donc écrire le prédicteur XT+1,p explicitement :

XT+1,p = a1 XT + a2 XT−1 + . . . + ap XT−p+1 ,

et l’erreur de prédiction s’implifie dans ce cas d’un processus AR(p)

vp = E(XT+1 − XT+1,p)2 = σ2

ε,p ,

où σ2ε,p est la variance d’innovations du processus AR(p).

Page 39: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 230

5.7.4 Prédiction d’un processus ARMA

La prédiction de la partie MA(q) d’un processus ARMA(p,q) nécessite un peude réflexion supplementaire car, comme pour le problème de l’estimation des coef-ficients de la partie moyenne mobile, cette partie n’est pas observable. De nouveau,on s’en sort en utilisant les résidus

et(ap, θq) = Xt −p∑

k=1

ak Xt−k −q∑

j=1

θj et−j(ap, θq) (5.27)

avec et(ap, θq) := 0, t ≤ 0, et Xt := 0, t ≤ 0.

D’après le paragraphe précédent, la partie AR(p) est prédite par

XT+1 =

p∑

k=1

ak XT+1−k .

Alors, pour une ARMA(p,q) on utilise comme prédicteur

XT+1 =

p∑

k=1

ak XT+1−k +

q∑

j=1

θj eT+1−j(ap, θq) , (5.28)

puisque les {εt} ne sont pas observables.

L’erreur de prédiction se comporte comme celle de la prédiction de la partieAR(p) : E[(XT+1 − XT+1)

2] ≈ σ2ε , si T est grand.

En pratique, on estime le vecteur des coefficients (ap, θq) par les estimateursdu maximum de vraisemblance (a, θ), et σ2

ε par T−1∑

t e2t (ap, θq) , alors que

XT+1 =

p∑

k=1

ak XT+1−k +

q∑

j=1

θj eT+1−j .

Pour une prédiction de horizon h > 1 il faut remplacer les valeurs inconnuesde XT+h−1, . . . , XT+1 par les prédictions précédentes XT+h−1, . . . , XT+1 , aveceT+h−1 = . . . = eT+1 = 0 .

L’erreur de prédiction E[(XT+h − XT+h)2] augmente avec h, et elle est ap-

proximative égale à σ2ε

∑h−1k=0 b

2k , où les {bk} viennent de la répresentation MA(∞)

du processus ARMA(p,q).

5.7.5 Application et intervalles de prévision

Dans cette section, nous illustrons le prédicteur sur la série de quotidiennel’indice Dow Jones, considérée pour la période du 28 août au 18 décembre 1972(prise de Anderson (1972)). La série initiale est présentée en Figure 5.20(a) et lasérie différenciée est présentée à la figure 5.20(b).

Page 40: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 231

0 20 40 60 80

110

115

120

(a) Série originale

0 20 40 60 80

−0.

50.

00.

51.

01.

5

(b) Série différenciée

0 5 10 15

−0.

20.

00.

20.

40.

60.

81.

0

(c) ACF de la série différenciée

5 10 15

−0.

2−

0.1

0.0

0.1

0.2

0.3

0.4

(d) PACF de la série différenciée

Figure 5.20: Indice Dow Jones (du 28 août au 18 décembre1972)

Sur base de l’ACF et de la PACF, il est raisonnable d’ajuster un modèle AR(1).L’estimation des paramètres du modèle donne, avec un niveau éventuel (Xt =µ + aXt−1 + εt, εt ∼ WN(0, σ2

ε)). Dans cet exemple, les estimateurs trouvés sontµ = 0.12, a = 0.45 et σ2

ε = 0.15.Nous souhaitons à présent réaliser une prévision à 10 jours. La prédicteur li-

néaire donne les valeurs suivantes : −0.28, −0.06, 0.04,... En plus de ces prédicteurs,il est intéressant de construire des intervalles de prévision, c’est-à-dire des inter-valles autour des prédicteurs dans lesquels la future observation a 95 % de chancede se trouver. Pour construire ces intervalles, on se base tout d’abord sur l’erreurquadratique de prévision, qui est égale 10 à

ν2T+h = E(XT+h − XT+h)2 = rX0 − k

′T r

XT (h) (5.29)

10. Exercice utile.

Page 41: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 232

Cette erreur peut être estimée par ν2T+h, si on y remplace les quantités inconnuesrX0 , k′

T et rXT (h) par les quantitiés estimées correspondantes. Les valeurs fournies

dans le cas du Dow Jones sont 0.14„ 0.17, 0.18, etc. Sous l’hypothèse de normalitédes résidus (généralement considérée comme vraie), l’intervalle de prévision estalors

XT+h ± 1.96× νT+h

La prévision et l’intervalle de prévision dans le cas de la série Dow Jones sontfournies à la figure 5.21.

0 20 40 60 80

−1.

0−

0.5

0.0

0.5

1.0

1.5

(a) Série originale

Figure 5.21: Prévision pour l’indice Dow Jones

5.8 Test d’ajustement

5.8.1 Test sur la fonction d’autocorrélation résidus

La qualité de l’ajustement d’un modèle est généralement jugée en comparantles valeurs observées avec les valeurs correspondantes dans le modèle d’ajustement.Si le modèle ajusté est approprié, les résidus doivent se comporter comme un bruitblanc. Comme nous l’avons vu ci-dessus, les résidus provenant d’un modèle d’ajus-tement ARMA sont donnés par :

et = Xt −p∑

k=1

ak Xt−k −q∑

j=1

θj et−j (5.30)

où a1, . . . , ap, θ1, . . . , θq sont les estimateurs de maximum du vraisemblance.

Page 42: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 233

Afin de vérifier si les résidus {et} forment un bruit blanc, on calcule la suitedes autocorrélations empiriques :

ρe1, . . . , ρeK

où K ≫ p+ q. Le test à effectuer sur la fonction d’autocorrélation des résidus estdonc {

H0 : ρe1 = . . . = ρeK = 0

H1 : non H0

et on peut montrer un théorème central limite pour les résidus ce qui est de lanature suivante : si ρe = (ρe1, . . . , ρ

eK)′, on a, sous H0 :

√T ρe

L−→ N (0,ΣK) = N (0, IK − S) ,

où ΣK représente une matrice variance-covariance de dimension K qui serait égaleà la matrice identité IK de dimension K si les résidus formaient vraiment unesuite de variables aléatoires indépendantes (et comme cela, aussi les estimateurs{ρeh}h=1,...,K). Ce serait le cas si en réalité on observait les innovations {εt} duprocessus, mais bien sûr ceci n’est pas possible. Alors il faut tenir compte de lacorrélation dans la matrice ΣK qui est, en fait, égale à IK − S (ce que nous allonsdétailler ci-dessous à titre d’information complète). Par conséquent, les variances(les seuls éléments de cette matrice qui nous intéressent ici), c’est-à-dire les va-riances asymptotiques de ρeh, sont plus petites que 1/T ce qui mène à une bande deconfiance plus étroite des coefficients ρeh pour tester si les résidus forment un bruitblanc.

Page 43: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 234

→ En détails∗

Le théorème central limite pour les résidus prend en fait, la formulation suivante :si ρe = (ρe1, . . . , ρ

eK)′, on a, sous H0 :

√T ρe

L−→ N (0, IK − S) ,

où IK représente la matrice identité de rang K, et S est définie par :S = ΛK · Γ−1

p,qΛ′K = [sij ]

Ki,j=1

Γp,q =

[∞∑

k=0

φkφk+|i−j|

]p+q

i,j=1ΛK = [φi−j ]1≤i≤K,1≤j≤p+q.

où les αi forment la suite des coefficients de la réprésentation (5.16).On remarque donc que la variance asymptotique de ρeh est plus petite que 1/T

en raison du terme correcteur S. L’apparition de cette matrice est due au fait queles résidus ρe1, . . . , ρ

eK ne forment pas en général une suite de variables iid.

Dans le cas d’un processus AR(1) par exemple, on a φi = ai pour i = 1, 2, . . .et donc : {

Γp = (1− a2)−1I

sii = sii(a) = a2(i−1)(1− a2) i = 1, 2, . . .

La bande de confiance du coefficient ρei pour tester si les résidus forment unbruit blanc est :

[−1, 96

√(1− sii(a))/T ; 1, 96

√(1− sii(a))/T

]

et dépend de i. •

5.8.2 Le test Portmanteau

Au lieu de vérifier par une représentation graphique si tous les éléments de lasuite ρeh se trouvent dans la bande de confiance, il est possible de construire untest qui possède une seule statistique dépendante de ρeh, 1 6 h 6 K. Dans cecontexte, le choix de K sera crucial. Evidemment on aimerait choisir K le plusgrand possible (pour inclure beaucoup d’éléments du vecteur ρe dans le test), maisnon seulement cela augmenterait avec K l’incertitude statistique en estimant lesautocorrélations inclues, mais aussi, une valeur K trop grande causerait-elle desproblèmes au niveau de l’estimateur ρeK qui serait formée par trop peu de données(notamment T −K).

Pour éviter ces effets, on supposera que K dépend de la taille d’échantillon Tet est tel que K(T ) ≈

√T .

Page 44: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 235

→ En détails∗

De cette façon, lorsque K(T ) → ∞, on peut montrer que la matrice Γp,q est ap-proximée par Λ

′KΛK et la matrice S est approximée par ΛK(Λ′

KΛk)−1Λ′

K , qui estde rang p+ q.

En conséquence, H0 : ρ1 = . . . = ρK = 0, la distribution de (ρ1, . . . , ρK) estapproximativement

N(0, IK −ΛK(Λ′

KΛK)−1Λ

′K

).

Le test Portmanteau est construit sur la statistique de test

Q(e) = T ρe′

ρe

= T

K∑

j=1

(ρej)2

qui est approximativement distribué selon une loi chi-carré de K − (p + q) degrésde liberté. Le test est donc rejeté au niveau 1− α si

Q(e) > χ2K−(p+q);1−α .

5.8.3 Illustration

Afin d’illustrer ces tests, nous considérons l’exemple du Dow Jones de la sectionprécédente. Rappelons que nous avons ajusté un modèle AR(1) à la série différen-ciée. La série des résidus est représentée à la figure 5.22(a). L’ACF empirique desrésidus est à la figure 5.22(b), avec les bandes de confiance. Cette fonction indiqueque les résidus sont compatibles avec l’hypothèse de bruit blanc.

De plus, en appliquant le test portmanteau avec la valeur K = 8 ≈√T , on

obtient la statistique Q(e) = 7.35. Comparée à la distribution χ27 (où le nombre de

degrés de libertés est K − p− q = 8− 1− 0 = 7), la p-valeur obtenue est de 0.61.On ne rejette donc pas l’hypothèse de non corrélation des résidus.

Page 45: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 236

0 20 40 60 80

−0.

50.

00.

51.

0

(a) Série des résidus

0 5 10 15

−0.

20.

00.

20.

40.

60.

81.

0

(b) ACF des résidus

Figure 5.22: Test d’ajustement sur les résidus après estimationpour la série Dow Jones.

Page 46: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 237

5.9 Prévision

5.9.1 Prévision et espérance conditionnelle

Pour traiter le cas plus général de la prévision des modèles avec tendance, ilest tout d’abord nécessaire de s’interroger sur la définition même d’un prédicteur.Cette définition n’est pas nécessairement attaché au cadre des séries temporelles :Dès le chapitre 1 nous avons introduit la notion de prévision.

La question générale de la prévision est la suivante : Supposons que Y représenteune variable explicative quelconque et que Z représente une variable explicative(ou un ensemble de variables explicatives. La prédiction de Y par Z consiste à sedemander comment, à partir de la seule connaissance d’une (ou plusieurs) variableZ, pouvons-nous former une fonction, notons-la g(Z), qui soit aussi proche quepossible de Y . Dans le cas d’une série temporelle, Y peut être la valeur de la sérieau temps t, c’est-à-dire Xt, et Z pourrait être la valeur de la série au temps t− 1,c’est-à-dire Xt−1. Bien entendu, Z pourrait aussi contenir plusieurs retards de lasérie temporelle Xt.

La proposition suivante montre que, parmi tous les choix possibles pour lafonction g(X), il existe une fonction très particulière qui minimise l’erreur quadra-tique de prévision. Cette fonction très particulière, c’est précisément l’espéranceconditionnelle E(Y |X).

Proposition 5.8. Pour toute variables aléatoires Y et X, et pour toute fonctiong de X, l’inégalité suivante est vraie :

E [Y − g(X)]2 > E [Y − E(Y |X)]2

Démonstration. La preuve consiste à tout d’abord ajouter et soustraire l’espéranceconditionnelle à l’intérieur de l’erreur de prévision E [Y − g(X)]2 :

E [Y − g(X)]2 = E [Y − E(Y |X) + E(Y |X)− g(X)]2

= E [Y − E(Y |X)]2 + E [E(Y |X)− g(X)]2+ 2E [Y − E(Y |X)] [E(Y |X)− g(X)]

Le double produit, dernier terme de ce développement, est nul (exercice utile). Lesecond terme est toujours positif. Par conséquent la proposition est démontrée. �

Cette proposition offre une autre manière de comprendre l’espérance condition-nelle. L’espérance conditionnelle peut également être comprise comme la meilleureprédiction de Y par X. Le terme « meilleur » devrait être précisé : il s’agit dumeilleur prédicteur au sens de celui minimisant l’erreur quadratique moyenne. Cecritère quantifiant la qualité de la prédiction peut être critiqué. Si un autre critèreest utilisé, l’espérance conditionnelle n’est plus nécessairement le même prédicteur.

Dans le cadre de ce cours, nous considérerons que la prédiction est donnée parl’espérance conditionnelle. Par exemple, la prédiction de Xt par ses deux premièresvaleurs retardées est donnée par E(Xt|Xt−1, Xt−2).

Page 47: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 238

5.9.2 Prévision dans les modèles avec tendance déter-ministe

Rappelons que le modèle avec tendance déterministe paramétrique prend laforme

Yt = Z ′tβ +Xt (5.31)

où le vecteur Zt dépend seulement du temps et le vecteur β = (β0, . . . , βK)′ contientles paramètres de la tendance, et Xt est une série temporelle faiblement station-naire. Le modèle satisfait aux hypothèses suivantes (discutées plus haut dans cechapitre) :

(i) Le rang de la matrice Z ≡ (Z1, Z2, . . . , ZT )′ est K avec probabilité 1

(ii) Exogénéité stricte : E(Xt|Z) = 0(iii) Normalité conditionnelle des résidus : XT |Z ∼ N (0,ΣT )

Extension de l’estimateur de White (GLS)

Rappelons que l’estimateur OLS

β = (Z ′Z)−1

Z′Y T

a pour variance conditionnelle

Var(β|Z) = (Z ′Z)−1

Z′ΣTZ(Z ′

Z)−1 (5.32)

Cette variance ne peut pas être calculée puisqu’elle dépend de la matrice de variance-covariance de Xt, matrice que nous avons notée ici par ΣT Cette matrice doit êtreestimée en vue de construire des tests statistiques, par exemple sur le vecteur β.

Les résidus après estimations, à savoir le vecteur

XT = Y T −Zβ

est une série temporelle faiblement stationnaire pouvant à présent être analyséeen utilisant les outils des sections précédentes. Lorsqu’un modèle a été ajusté àla série temporelle XT (par exemple un modèle ARMA), la matrice de variance-covariance peut être estimée et remplacée dans l’equation (5.32) afin d’obtenir unestimateur de Var(β|Z). Cependant cette approche n’est pas optimale parce que

la matrice ΣT contient T 2 coefficients estimé et si l’on remplace ΣT dans (5.32)nous produisons une inflation de la variance de l’estimateur final. Pour cette raison,plusieurs modifications de l’estimateur ΣT ont été proposés [e.g. Andrews (1991)ou Newey and West (1994)]. Puisque le processus Xt est stationnaire, sa matrice

Page 48: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 239

de variance-covariance ΣT prend la forme

ΣT =

rX0 rX1 rX2. . . rXT−1 rXT

rX1 rX0 rX1 rX2. . . rXT−1

rX2. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . rX2

rXT−1

. . . rX2 rX1 rX0 rX1

rXT rXT−1

. . . rX2 rX1 rX0

Une idée de la modification est de mettre à zéro les autocovariances estimées lesplus éloignées de la diagonale, c’est-à-dire de mettre à 0 chaque entrée rXm telleque m > m0 pour un certain m0. Cette matrice tronquée est alors introduire dansl’équation (5.32) afin de trouver un estimateur de Var(β|Z).

Notez que la troncation de la matrice de covariance empirique n’est pas néces-saire si Xt est un processus à moyenne mobile pur (voyez-vous pourquoi ?)

Prévision

Le meilleur prédicteur 11 de Yt+h étant donné ses valeurs passées jusqu’au tempst− 1, It−1 = {Yt−1, Yt−2, . . .}, est donné par

E(Yt+h|It−1) = Z ′t+hβ + E(Xt+h|It−1)

Lorsque h tend vers l’infini le prédicteur de la série stationnaire de moyenne nulleXt+h tend vers zéro. Dès lors, à long terme, le terme dominant dans la prédictionest donné par la prédiction de la tendance Z ′

t+hβ.

Attraction de la tendance

Une autre manière d’analyse le modèle avec tendance déterministe est de quan-tifier l’effet d’un choc sur la série temporelle. Un choc est défini par un changementmarginal de Yt causé par un changement positif (ou négatif) dans le processus d’in-novation εt. Par exemple, dans le cas du logarithme du PIB, un choc négatif estun choc dans l’économie qui n’est pas dû à l’une des variables de la partie systé-matique du modèle. Un choc peut survenir après une catastrophe naturelle, uneguerre, une décision politique, etc. et ce choc « entre » dans le modèle du PIB parl’intermédiaire du processus d’innovation.

Supposons, comme dans un exemple précédent, qu’un modèle à tendance li-néaire soit choisi avec un modèle AR(1) pour la série temporelle résiduelle, i.e.

Yt = β0 + β1t+Xt with Xt ∼ AR(1).

11. Au sens du prédicteur minimisant la moyenne des erreurs quadratiques

Page 49: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 240

où Xt = aXt−1 + εt. Au temps t+ h :

Yt+h = β0 + β1(t+ h) +Xt+h= β0 + β1(t+ h) + ǫt+h+ aǫt+h−1 + . . .+ ah−1ǫt+1 + ahǫt + ah+1ǫt−1

et donc

∂Yt+h

∂εt= ah

qui tend vers zéro lorsque h tend vers l’infini.Ce résultat se généralise si la série résiduelle est modélisée avec n’importe quel

processus ARMA : Dans le modèle à tendance déterministe, l’impact d’un choc dansl’économie est transitoire et se résorbe lorsque l’horizon de prédiction augmente.Ce phénomène est appelé en anglais mean reversion, ou retour à la moyenne,signifiant que, après le choc, le processus stochastique retourne rapidement danssa trajectoire tendancielle.

5.9.3 Prédiction avec tendance stochastique : ModèlesARIMA

Integrated processes

Le prix quotidien du pétrole brut, présenté à la figure 5.24, montre une ten-dance, mais il n’est pas évident de savoir comment la modéliser. Par ailleurs lapropriété de retour à la moyenne (mean reversion) est difficilement justifiable dansce cas pratique. Plus haut nous avions utilisé l’opérateur de différence pour enleverla tendance apparente. La figue 5.23 résume cette situation. Nous allons exploitercette idée dans le but de définir précisément ce que l’on entend par une tendancestochastique.

Page 50: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 241

40

60

80

100

06/09 12/09 07/10 01/11 08/11

(a) Original data-5

05

06/09 12/09 07/10 01/11 08/11

(b) Differenciated data

Figure 5.23: Daily spot price of West Texas Intermediate, Jan2009 to Jul 2012.

Nous en donnons tout d’abord l’intuition. Après avoir appliqué l’opérateur dedifférence, supposons que la série temporelle résiduelle soit faiblement stationnaire,et notons cette série Xt. Cela signifie que la série initiale, Yt, est telle que ∇Yt =Xt. Après avoir analysé le processus Xt en utilisant les techniques des sectionsprécédentes, il est possible de revenir à Yt en inversant l’opération ∇. L’inverse del’opérateur de différence et l’opérateur d’intégration. Nous dirons donc que Yt estune série intégrée. Plus exactement, si ∇Yt = Yt − Yt−1 = Xt, alors

Yt = Y0 +X1 +X2 + . . .+Xt (5.33)

où Y0 est une valeur initiale arbitraire de la série temporelle.Nous donnons à présent une définition rigoureuse d’une série temporelle inté-

grée.

Définition 5.6. (i) La série Xt est I(0) s’il existe un processus faiblement sta-tionnaire tel que la variance de

√TXT converge vers un nombre fini stricte-

ment positif.

(ii) La série Yt est I(1) si ∇Yt est I(0).

(iii) La série Yt est I(d) si ∇dYt est I(0).

Si Xt est un processus stationnaire, c’est également le cas pour ∇Xt. La condi-tion “la variance de

√TXT converge vers un nombre fini strictement positi” garantit

donc que les séries I(0) ne sont pas le résultat d’une différentiation processes dedeux processus faiblement stationnaires.

Les séries I(0) peuvent s’écrire

Yt = δ +Xt (5.34)

Page 51: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 242

où δ est une moyenne constante et Xt est un processus stationnaire d’espérancenulle (satisfaisant les conditions de la définition précédente). Si δ n’est pas nul, lasérie I(1) Yt définie par ∇Yt = Xt est telle que

Yt = Y0 + δt+X1 +X2 + . . .+Xt . (5.35)

Cette dernière identité montre que la tendance d’une série I(1) est t fois l’espérancede sa série différenciée.

Quelques éléments de vocabulaire :– Dans ce context, δ est le paramètre de drift (dérive)– Si le drift est nul, la série I(1) est appelée processus intégré driftless d’ordre

1– Une série I(1) est également appelée une série à racine unité– Si ∇Yt = δ + εt où εt est un bruit blanc, alors Yt est une série I(1) très

particulière appelée bruit blanc avec drift

Prévision d’un bruit blanc avec drift

Afin de comprendre le comportement d’une série avec tendance stochastique, ilest utile de tout d’abord se concentrer sur la situation plus simple d’un bruit blancavec drift. A partir du développement itéré (5.35) on peut écrire

Yt+h = Yt−1 + (h+ 1)δ + εt+h + εt+h−1 + . . .+ εt−1

Il s’ensuit que le prédicteur de Yt−h étant donné les observation passées jusqu’autemps t− 1, est donné par

E(Yt+h|It−1) = Yt−1 + (h+ 1)δ .

De maniètre similaire, l’effet d’un choc au temps t sur la série chronologiqueau temps t+ h est

∂Yt+h

∂εt= 1

pour tout h. Par opposition au cas de la tendance déterministe, l’effet du choc està présent permanent et il n’y a pas de retour à la moyenne.

Ce résultat se généralise pour tout modèle avec tendance stochastique (saufqu’en général, l’effet du choc n’est pas nécessairement égal à 1). Nous ne devélop-perons pas cette extension dans le cadre de ce cours introductif.

Modèle ARIMA

Une série ARIMA est une série temporelle intégrée qui, après différentiation,est une série ARMA. Formellement, Yt est ARIMA(p, d, q) si Xt = ∇dYt estARMA(p, q).

Page 52: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 243

A partir de l’observation du processus ARMA noté Xt, on retrouve le processusintégré Yt par la formule

Yt = Xt −d∑

j=1

(d

j

)(−1)jYt−j .

En conséquence le prédicteur linéaire de Yt est

E(Yt|It−1) = E(Xt|It−1)−d∑

j=1

(d

j

)(−1)jE(Yt−j |It−1) .

Puisque E(Yt−j |It−1) = Yt−j , observons que la formule du prédicteur est une for-mule récursive.

0 10 20 30 40 50 60 70

1450

1500

1550

1600

1650

(a) With a stochastic trend

0 10 20 30 40 50 60 70

1450

1500

1550

1600

1650

(b) With a deterministic trend

Figure 5.24: Two forecasts of the GDP data

Modèle avec saisonnalités

Nous concluons ce chapitre par une dernière extensioni du processus ARIMAen vue d’intégrer des effets saisonniers systématiques. La figure 5.25(a) montreun exemple : il s’agit des données mensuelles de la génération totale d’électricitéproduites aux USA à partir de janvier 2000 jusque octobre 2010. Une saisonnalitéest clairement observable à une fréquence de 12 mois.

Page 53: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 244

2000 2002 2004 2006 2008 2010

280

300

320

340

360

380

400

420

Figure 5.25: Monthly total generation of electricity by the U.S.electric industry

Ces données peuvent être représentées sous la forme d’une table :

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

2000 327 294 301 285 322 339 356 368 312 289 284 319

2001 332 282 300 278 300 327 357 370 306 294 278 305

2002 319 281 302 289 307 341 381 374 331 307 296 324

2003 341 299 304 285 307 328 374 381 323 306 297 331

2004 346 314 308 290 327 345 377 368 335 312 302 341

2005 343 298 317 289 315 363 402 404 350 316 306 348

2006 328 307 318 297 330 364 410 407 332 321 309 336

2007 353 323 320 303 330 362 393 421 355 332 314 346

2008 362 325 324 305 325 373 402 388 338 318 310 343

2009 354 300 310 289 311 347 372 381 327 306 296 350

2010 360 319 311 287 328 376 409 408 345 307

Une saisonnalité signifie que l’observation de janvier 2010 est corrélée avec mesobserbations de janvier 2009, janvier 2008 et ainsi de suite. Cela signifie qu’il ya deux directions de correlation dans les données : une directoin horizontale (cor-rélation d’un mois à l’autre) et une direction verticale (corrélation d’une année àl’autre pour un mois donné). Une manière d’enlever la tendance de la série tempo-relle est de considérer l’opérateur de différence. Si la tendance est, pour un mois

Page 54: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 245

donné, d’une année à l’autre (ce que nous appelons la saisonnalité), on peut utilisél’opérateur de différence d’ordre 12, c’est-à-dire

∇12Yt = Yt − Yt−1

La figure 5.25(b) montre la série temporelle résultante après cette transformation.La saisonnalité a bien été éliminée (Figure 5.26(a)) et la série résiduelle présente unetendance stochastique que nous éliminons en appliquant l’opérateur de différenceusuel (Figure 5.26(b)). Cette dernière série peut à présent être analysée dans lecadre de la modélisation des séries faiblement stationnaires.

2002 2004 2006 2008 2010

−3

0−

20

−1

00

10

20

30

40

(a) Differentiated data ∇12Yt

2002 2004 2006 2008 2010

−4

0−

20

02

0

(b) Differentiated data ∇∇12Yt

Figure 5.26: Enlèvement de la saisonnalité et de la tendancede Yt

La définition suivante formalise cette approche.

Définition 5.7. La série {Yt} est SARIMA(p, d, q)× (P,D,Q)s si

Xt = ∇d∇Ds Xt = (1−B)d(1−Bs)DYt

est une série faiblement stationnaire ARMA(p+ sP, q + sQ).

Cette définition signifie encore que la série résiduelle (Figure 5.26(b)) est unprocessus ARMA dont les ordres sont p + sP et q + sQ. En examinant l’ACF etla PACF de la série résiduelle, nous pouvons donc trouver les paramètres p, P, qet Q (sachant que s, d,D est fixé au moment de la stationnarisation de la sérietemporelle elle-même). Par exemple, pour ce qui concerne la série temporelle deproduction d’électricité mensuelle, l’ACF et la PACF de la série stationnarisée setrouvent à la Figure 5.27. Cette figue suggère s = 12, d = 1, D = 1, p = 1, q = 0,P = 0 et Q = 1.

Page 55: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 246

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−0

.40

.00

.20

.40

.60

.81

.0

Lag

AC

F

(a) ACF de ∇∇12Yt

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−0

.20

.00

.20

.4

Lag

Pa

rtia

l A

CF

(b) PACF de ∇∇12Yt

Figure 5.27: Enlèvement de la saisonnalité et de la tendancede Yt

Avec cette spécification, nous vérifions l’ajustement du modèle en utilisant letest Portmanteau.

Portmanteau test

data: output$residuals

X-squared = 11.3757, df = 12, p-value = 0.497

Que concluez-vous de ce test ?Pour terminer, la Figure 5.28 présente la prévision obtenue pour les trois années

suivantes de la série temporelle.

Page 56: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 247

2000 2002 2004 2006 2008 2010 2012 2014

300

350

400

Figure 5.28: Prévision à trois ans à partir du modèleSARIMA(1, 0, 0)× (0, 1, 1)12.

5.10 Exercices sur le chapitre 5

Exercice 49 (Modèle MA). 1. Dessinez la fonction d’autocorrélation théoriquede la série temporelle suivante

Xt = εt − 0.5εt−1

où Eεt = 0 et Varεt = σ2ε . Proposez un estimateur de ρX1 et dérivez sa

variance asymptotique.

2. Dessinez la fonction d’autocorrélation théorique de la série temporelle sui-vante

Xt = εt + 0.5εt−2

où Eεt = 0 et Varεt = σ2ε .

Exercice 50 (Modèle AR). Soit

Xt = aXt−1 + εt, εt ∼ WN(0, σ2ε)

Page 57: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 248

1. Calculez la variance de Xt

2. Dessinez la fonction d’autocorrélation théorique de la série temporelle si a =0.4, d’une part, et si a = −0.4 d’autre part.

3. Si a = 1 montrez que la série temporelle n’est pas faiblement stationnaire.

Exercice 51. Lesquels de ces processus est-il inversible ?

Xt = εt − 4εt−2 εt ∼ WN(0, 4)Xt = εt − 0.9εt−1 + 0.2εt−2 εt ∼ WN(0, 1)Xt = εt − 1.8εt−1 + 0.4εt−2 εt ∼ WN(0, 1)Xt = εt − 0.8εt−1 + 0.4εt−2 εt ∼ WN(0, 3)

Dessinez la fonction d’autocorrélation théorique des séries temporelles inversibles.

Exercice 52. Soit le modèle AR(1)

Xt = 0.9 Xt−1 + εt , {εt} ∼ WN(0, 1) .

Calculez la seconde PACF dans ce modèle.

Exercice 53. Parmi ces modèles, lesquels sont-ils causaux ?

Xt = 1.9 Xt−1 + εt , {εt} ∼ WN(0, 1)Xt = 0.9 Xt−1 − 0.2Xt−2 + εt , {εt} ∼ WN(0, 1)

Exercice 54. Les deux figures suivantes sont les ACF (à gauche) et PACF (à droite)empiriques de la réalisation d’une série temporelle ARMA(p,q). Déduisez les ordresp et q à partir de l’observation conjointe de ces figures.

Lag

AC

F

0 5 10 15 20

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

Par

tial A

CF

0 5 10 15 20

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

Exercice 55. Les deux figures suivantes sont les ACF (à gauche) et PACF (à droite)empiriques de la réalisation d’une série temporelle ARMA(p,q). Déduisez les ordresp et q à partir de l’observation conjointe de ces figures.

Page 58: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 249

Lag

AC

F

0 5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

Par

tial A

CF

0 5 10 15 20

-0.2

-0.1

0.0

0.1

0.2

0.3

Exercice 56. Les deux figures suivantes sont les ACF (à gauche) et PACF (à droite)empiriques de la réalisation d’une série temporelle ARMA(p,q). Déduisez les ordresp et q à partir de l’observation conjointe de ces figures.

Lag

AC

F

0 5 10 15 20

-0.5

0.0

0.5

1.0

Lag

Par

tial A

CF

0 5 10 15 20

-0.8

-0.6

-0.4

-0.2

0.0

0.2

Exercice 57. A partir d’une série temporelle contenant 100 observations, on calculel’ACF empirique suivante.

r1 = 0.50, r2 = 0.63, r3 = −0.10, r4 = 0.08, r5 = −0.17,r6 = 0.13, r7 = 0.09, r8 = −0.05, r9 = 0.12, r10 = −0.05.

Proposez un modèle linéaire pour la série temporelle. Ecrivez la formule des résidus.Quelles sont les propriétés attendues de cette série de résidus ?

Exercice 58. Vérifiez les propriétés suivants du prédicteur linéaire XT+h :(a) Le prédicteur linéaire est tel que

E(XT+h − XT+h)2 = rX0 − k

′T r

XT (h)

(b) E(XT+h − XT+h) = 0(c) E[(XT+h − XT+h) Xj ] = 0 , j = 1, . . . , T .

Exercice 59. Le graphique suivant présente la production mensuelle de gaz dansl’Etat du Wyoming de janvier 1991 à juin 2002 (en millions de pieds au cube) ainsique sa série différenciée.

Page 59: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 250

Time

gas

0 20 40 60 80 100 120 14040

000

8000

0

Time

diff(

ts(g

as))

0 20 40 60 80 100 120 140

−20

000

020

000

La figure suivante présente l’ACF et la PACF empiriques de la série différenciée.

0 5 10 15 20

−0.

50.

00.

51.

0

Lag

AC

F

ACF

5 10 15 20

−0.

5−

0.2

0.1

Lag

Par

tial A

CF

PACF

(1) Quel modèle ARMA ajusteriez-vous à ces données ?

Page 60: Chapitre 5 Modèles linéraires pour les séries temporelles

ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 251

(2) La p valeur du test portmanteau (avec K = [√T ]) est présentée ci-dessous

pour divers modèles ARMA :– AR(1) : p-value = 0.03– MA(1) : p-value = 0.02– ARMA(1,1) : p-value = 0.07– ARMA(2,1) : p-value = 0.06– ARMA(1,2) : p-value = 0.10– ARMA(2,2) : p-value = 0.04

Sur base de ces informations, quel modèle ARMA ajusteriez-vous à ces données ?

Page 61: Chapitre 5 Modèles linéraires pour les séries temporelles

Bibliographie

Amemiya, T. (1985) : Advanced Econometrics. Harvard University Press, Cam-bridge.

Anderson, T. W. (1972) : The Statistical Analysis of Time Series. John Wiley& Sons, Inc.

Andrews, D. (1991) : “Heteroskedasticity and Autocorrelation Consistent Cova-riance Matrix Estimation,” Econometrica, 59, 817–858.

Berndt, E., B. Hall, R. Hall, and J. Hausman (1974) : “Estimation andInference in nonlinear structural models,” Annals of Economic and Social Mea-surement, 3/4, 653–665.

Blundell, R., A. Duncan, and K. Pendakur (1998) : “Semiparametric esti-mation and Consumer Demand,” Journal of Applied Econometrics, 13, 435–462.

Bourbonnais, R. (2004) : Économétrie. Dunod, Paris, 5e edn.

Breusch, T., and A. Pagan (1979) : “A simple test for heteroscedasticity andrandom coefficient variation,” Econometrica, 47, 1287–1294.

Brockwell, P. J., and R. A. Davis (1991) : Time Series : Theory and Methods,Springer Series in Statistics. Springer, New York, second edn.

Duncan, A. (2005) : A short course in microeconometric methods. University ofNottingham.

Durbin, J., and G. Watson (1950) : “Testing for Serial Correlation in LeastSquare Regression I,” Biometrika, 37, 409–428.

(1951) : “Testing for Serial Correlation in Least Square Regression II,”Biometrika, 38, 159–179.

Estrella, A. (1998) : “A New Measure of Fit for Equations with DichotomousDependent Variables,” Journal of Business and Economic Statistics, 16, 198–205.

Farrar, D., and R. Glauber (1968) : “Multicolinearity in regression analysis,”Review of Economics and Statistics, 49, 92–107.

Godfrey, L. (1988) : Misspecification Tests in Econometrics. Cambridge Univer-sity Press, Cambridge.

Goldfeld, S., and R. Quandt (1965) : “Some tests for homoskedasticity,” Jour-nal of the American Statistical Association, 60, 539–547.

Greene, W. H. (2003) : Econometric analysis. Pearson Education, Upper SaddleRiver, 5th edn.

Hayashi, F. (2000) : Econometrics. Princeton University Press, Princeton.

Jarque, C., and A. Bera (1987) : “A test for Normality of observations andregression residuals,” International Statistical Review, 55, 163–172.

Judge, G., W. Griffiths, C. Hill, and T. Lee (1985) : The Theory andPractice of Econometrics. John Wiley and Sons, New York.

Page 62: Chapitre 5 Modèles linéraires pour les séries temporelles

BIBLIOGRAPHIE 253

Keynes, J. (1936) : The General Theory of Employment, Interest, and Money.Harcourt, Brace, and Jovanovich, New York.

Leser, C. (1963) : “Forms of Engle functions,” Econometrica, 31, 694–703.

Maddala, G. (2001) : Introduction to econometrics. John Wiley & Sons, Chiches-ter, 3rd edn.

McFadden, D. (1974) : “The Measurement of Urban Travel Demand,” Journal ofPublic Economics, 3, 303–328.

Monfort, A. (1997) : Cours de statistique mathématique. Economica, Paris.

Newey, W., and K. West (1994) : “Automatic Lag Selection in CovarianceMatrix Estimation,” Review of Economic Studies, 28, 631–653.

Ruud, P. A. (2000) : An Introduction to Classical Econometric Theory. OxfordUniversity Press, New York.

Serfling, R. J. (1980) : Approximation Theorems of Mathematical Statistics.John Wiley & Sons, New York.

van der Vaart, A. (1998) : Asymptotic Statistics. Cambridge University Press.

Vinod, H. D., and A. Ullah (1981) : Recent advances in regression methods.Dekker.

Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2002) : Ma-thematical Statistics with Applications. Duxbury, Pacific Grove, 6th edition.

White, H. (1980) : “A Heteroscedasticity-Consistent Covariance Matrix Estimatorand a Direct Test for Heteroscedasticity,” Econometrica, 48, 817–838.

Working, H. (1943) : “Statistical laws of family expenditure,” Journal of theAmerican Statistical Association, 38, 43–56.