Download - Econométrie Appliquée Séries Temporelles · 2009. 2. 12. · U.F.R. Economie Appliquée Maîtrise d’Economie Appliquée Cours de Tronc Commun Econométrie Appliquée Séries

U.F.R. Economie Appliquée

Maîtrise d’Economie Appliquée

Cours de Tronc Commun

Econométrie AppliquéeSéries Temporelles

Christophe HURLIN

Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 2

Chapitre 5

Représentation VAR et Cointégration


1. Représentation VAR

1.1. Exemple introductif

On considère deux processus stationnaires y1,t, t ∈ Z et y2,tt ∈ Z définies par les relationssuivantes :

y1,t = a1 +

p

i=1

b1,iy1,t−i +p

i=1

c1,iy2,t−i − d1y2,t + ε1,t (1.1)

y2,t = a2 +

p

i=1

b2,iy1,t−i +p

i=1

c2,iy2,t−i − d2y1,t + ε1,t (1.2)

où les innovations ε1,t, t ∈ Z et ε2,t, t ∈ Z sont des bruits de variance respective σ21 et

σ22, et non corrélés : E (ε1,tε2,t−j) = 0, ∀j ∈ Z. On constate immédiatement que le processusvectoriel Yt = (y1,t y2,t) peut s’écrire sous la forme d’un processus AR (p) . En effet :

B =1 d1d2 1

A0 =a1a2

Ai =b1,i c1,ib2,i c2,i

∀i ∈ [1, p]

On définit un processus vectoriel εt i.i.d. tel que :

εt =ε1,tε2,t

E εtεt = Ω =σ21 00 σ22

Alors, on montre immédiatement que :

BYt = A0 +

p

i=1

AiYt−i + εt (1.3)

On qualifie cette représentation de processus V AR (Vectorial Autoregressive) d’ordre p,

noté V AR(p). Ce système initial donnée par les équations (1.1) et (1.2), ou par la définition

matricielle (1.3) est qualifiée de représentation structurelle. On constate que dans cette

représentation le niveau de y2,t a un effet immédiat sur y1,t et vice et versa. L’estimation de

ce modèle suppose donc d’estimer 4 ∗ (p+ 1) + 2 + 2 paramètres.

C’est pourquoi on travaille généralement à partir de la forme réduite du modèle V AR.

Ce modèle, obtenu en multipliant les deux membres de (1.3) par B−1, s’écrit alors sous laforme :

Yt = A0 +

p

i=1

AiYt−i + vt (1.4)


avec :

Ai = B−1Ai ∀i ∈ [0, p]vt = B−1εt ∀t ∈ Z

Ce qui peut s’écrire sous la forme :

y1,t = a1 +

p

i=1

b1,iy1,t−i +p

i=1

c1,iy2,t−i + v1,t (1.5)

y2,t = a2 +

p

i=1

b2,iy1,t−i +p

i=1

c2,iy2,t−i + v1,t (1.6)

On constate alors que le niveau de y2,t ne dépend plus directement de y1,t, mais seulement

des valeurs passées de y2,t et de y1,t, et de l’innovation v2,t. Les innovations v1,t et v2,t sont

alors fonction des innovations de la forme structurelle (ε1,t et ε2,t) et peuvent être corrélées

même en l’absence de corrélation des innovations εt. En effet, on a ∀t ∈ Z:

v1,t =ε1,t − d1ε2,t1− d1d2 (1.7)

v2,t =ε2,t − d2ε1,t1− d1d2 (1.8)

Dès lors, on vérifie que les processus v1,t, t ∈ Z et v2,t, t ∈ Z sont i.i.d. puisque :

E (v1,t) = E (v2,t) = 0

E (v1,tv1,t−j) = E (v2,tv2,t−j) = 0 ∀j ∈ Z∗

Les variances de ces innovations sont alors définies par ∀t ∈ Z

E v21,t =σ21 + d

21σ22

(1− d1d2)2

E v22,t =σ22 + d

22σ21

(1− d1d2)2Enfin, on constate que les innovations v1,t, t ∈ Z et v2,t, t ∈ Z peuvent être corrélées

alors même que les innovations du modèle structurel ε1,t, t ∈ Z et ε2,t, t ∈ Z sont noncorrélées.

E (v1,tv2,t−h) =−d22σ

21+d

21σ

22

(1−d1d2)20

h = 0h = 0

(1.9)

On constate que cette covariance est nulle en particulier lorsque d1 = d2 = 0, puisque

dans ce cas là le niveau de y2,t n’a pas d’influence sur celui de y1,t et vice et versa.


1.2. Représentation générale

La définition générale d’un processus V AR (p) est la suivante.

Definition 1.1. Un processus vectoriel Xt, t ∈ Z, de dimension (n, 1) , admet une représen-tation V AR d’ordre p, notée V AR (p) si :

Xt = c− Φ1Xt−1 − Φ2Xt−2 − ...− ΦpXt−p + εt (1.10)

ou de façon équivalente :

Φ (L)Xt = c+ εt (1.11)

où c, dimension (n, 1) désigne un vecteur de constantes, Φ (L) = ∞i=0ΦiL

i, où les matrice

Φi,∀i ∈ [0, p] de dimension (n, n) , satisfont Φ0 = In et Φp = 0n. Le vecteur (n, 1) des

innovations εt est i.i.d. (0n,Ω) où Ω est une matrice (n, n) symétrique définie positive.

Le processus vectoriel des innovations εt, t ∈ Z est i.i.d. (0n,Ω), et satisfait par con-séquent les propriétés suivantes :

E (εt) = 0

E εtεt−j =Ω0

j = 0j = 0

De la même façon que pour un AR (1), on peut donc exprimer le polynôme matriciel

Φ (L), de dimension (n, n), de la façon suivante :

Φ (L) =∞i=0

ΦiLi = In + Φ1L− Φ2L

2 − ...− ΦpLp

où In désigne la matrice identité (n, n) . On pose les définitions suivantes :

Xt(n,1)

=

x1,tx2,t...xn,t

εt(n,1)

=

ε1,tε2,t...εn,t

Φi(n,n)

=

Φi1,1 Φi1,2 ... Φi1,nΦi2,1 Φi2,2 ... ...... ... Φij,k ...Φin,1 Φin,2 ... Φin,n

∀i ∈ [1, p]

On retrouve alors la forme réduite évoquée dans l’exemple précédent puisque, les proces-

sus xi,t, t ∈ Z sont respectivement définis en fonctions de leur passé et du passé des proces-sus xj,t, t ∈ Z pour j = i. Par exemple, pour x1,t on obtient, ∀t ∈ Z :

x1,t = cj + Φ11,1x1,t−1 + Φ11,2x2,t−1 + ..+ Φ11,nxn,t−1

+Φ21,1x1,t−2 + Φ21,2x2,t−2 + ..+ Φ21,nxn,t−2

+...

+Φp1,1x1,t−p + Φp1,2x2,t−p + ..+ Φp1,nxn,t−p


De façon plus générale, pour xj,t, ∀j ∈ [1, n] , on a :

xj,t = c1 + Φ1j,1x1,t−1 + Φ1j,2x2,t−1 + ..+ Φ1j,jxj,t−1 + ..+ Φ1j,nxn,t−1

+Φ2j,1x1,t−2 + Φ2j,2x2,t−2..+ Φ2j,jxj,t−2 + ..+ Φ2j,nxn,t−2

+...

+Φpj,1x1,t−p + Φpj,2x2,t−p..+ Φpj,jxj,t−p + ..+ Φpj,nxn,t−p

1.3. Conditions de stationnarité

La définition de la stationnarité d’ordre deux (ou stationnarité du second ordre) est identique

à celle du cas des processus univariés.

Definition 1.2. Un processus vectoriel Xt, t ∈ Z, de dimension (n, 1) , est dit stationnaireau second ordre, ou stationnaire au sens faible, ou stationnaire d’ordre deux si

• ∀t ∈ Z, E (X2t ) <∞

• ∀t ∈ Z, E (Xt) = m(n,1)

(indépendant de t)

• ∀ (t, h) ∈ Z2, E (Xt+h −m) (Xt −m) =γ (h)(n,n)

(indépendant de t)

Lorsque l’on considère un processus V AR (p) , on peut démontrer que ces conditions de

stationnarité reviennent à imposer des conditions sur les racines du déterminant du polynôme

matriciel Φ (L) .

Proposition 1.3. Un processus vectoriel Xt, t ∈ Z, de dimension (n, 1) , statisfaisant unereprésentation V AR (p) telle que ∀t ∈ Z :

Φ (L)Xt = Xt − Φ1Xt−1 − Φ2Xt−2 − ...− ΦpXt−p = c + εt

est stationnaire si et seulement si les racines du déterminant du polynôme matriciel Φ (L) ,

notée λi i ∈ [1, n], sont toutes supérieures à l’unité en module.

det [Φ (λi)] = |Φ (λi)| = Inλpi − Φ1λ

p−1i − Φ2λ

p−2i − ...− Φp−1λ

pi − Φp = 0

|λi| > 1 ∀i ∈ [1, n] (1.12)


Exemple : On considère un processus bi-varié Yt, t ∈ Z admettant une représentationV AR (1) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t

y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t

On pose Yt = (y1,t y2,t) et εt = (ε1,t ε2,t) . Cette représentation peut s’exprimer sous la

forme réduite suivante :

Φ (L)Yt = c+ εt

avec c = (3 1) et :

Φ (L) =1 00 1

+−0.2 −0.7−0.3 −0.4 L =

1− 0.2L −0.7L−0.3L 1− 0.4L

Donc la condition de stationnarité du processus Yt, t ∈ Z se ramène à déterminer lesracines du polynôme :

det [Φ (L)] = (1− 0.2L) (1− 0.4L)− 0.21L2

Les deux racines λ1 = 1.30 et λ2 = −5.91 sont supérieures à 1 en module, le processus V ARest stationnaire. Donc les processus univariées y1,t, t ∈ Z et y2,t, t ∈ Z sont stationnaires.

On peut facilement démontrer que cette condition de stationnarité peut être exprimée

en fonction des valeurs propres de la matrice Φ (L) .

Proposition 1.4. Un processus vectoriel Xt, t ∈ Z, de dimension (n, 1) , statisfaisant unereprésentation V AR (p) telle que ∀t ∈ Z :


est stationnaire si et seulement si les valeurs propres de l’application linéaire Φ (L) , notée λii ∈ [1, n], sont toutes inférieures à l’unité en module. Ces valeurs propres satisfont l’équationcaractéristique associée :

Inλp

i − Φ1λp−1i − Φ2λ

p−2i − ...− Φp−1λ

p

i − Φp = 0 (1.13)

λi < 1 ∀i ∈ [1, n] (1.14)


1.4. Ecriture VAR(1) d’un VAR(p)

Les processus V AR (p) possède une propriété particulièrement utile pour les démonstrations

ultérieures.

Proposition 1.5. Tout processus vectoriel Xt, t ∈ Z, satisfaisant une représentation V AR (p)peut être transformé en un processus Xt, t ∈ Z satisfaisant une représentation V AR (1)

d’espérance nulle.

Preuve : On considère un processus Xt, t ∈ Z, avec Xt = (x1,t, ..., xn,t) satisfaisant lareprésentation V AR (p) suivante, ∀t ∈ Z :

Φ (L)(n,n)

Xt(n,1)

= Xt − Φ1Xt−1 − Φ2Xt−2 − ...− ΦpXt−p = c+ εt

Déterminons tout d’abord l’espérance du processus Xt :

E (Xt) = Φ (L)−1 [c + εt] = Φ (1)−1 c = µ ∀t ∈ Z

où µ est un vecteur de constante (hypothèse de stationnarité) de dimension (n, 1) . On peut

alors réecrire le processus sous la forme suivante :

Φ (L) (Xt − µ) = εt

⇐⇒ (Xt − µ) = Φ1 (Xt−1 − µ) + Φ2 (Xt−2 − µ) + ...+ Φp (Xt−p − µ) + εt

On pose ∀t ∈ Z

Xt(np,1)

=

Xt − µXt−1 − µXt−2 − µ...Xt−p+1 − µ

vt(np,1)

=

εt0(n,1)0(n,1)...0(n,1)

et

A(np,np)

=

Φ1 Φ2 ... Φp−1 ΦpIn 0(n,n) ... 0(n,n) 0(n,n)0(n,n) In ... 0(n,n) 0(n,n)0(n,n) 0(n,n) In 0(n,n) 0(n,n)0(n,n) 0(n,n) 0(n,n) In 0(n,n)

Alors le processus V AR (p) Xt peut se récrire sous la forme d’un processus transformé

Xt satisfaisant une représentation V AR (1) tel que :

Xt = AXt−1 + vt


Exemple : On considère un processus bi-varié Yt, t ∈ Z admettant une représentationV AR (2) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 − 0.4y1,t−2 − 0.6y2,t−2 + ε1,t

y2,1 = 1 + 0.3y1,t−1 + 0.4y2,t−1 − 0.1y1,t−2 − 0.8y2,t−2 + ε2,t

On pose Yt = (y1,t y2,t) et εt = (ε1,t εy2,t) . Cette représentation peut s’exprimer sous la

forme réduite suivante :

Φ (L)Yt = c+ εt

avec c = (3 1) et :

Φ (L) = Φ0 + Φ1L+ Φ2L2

=1 00 1

+−0.2 −0.7−0.3 −0.4 L+

0.4 0.60.1 0.8

L2

=1− 0.2L+ 0.4L2 −0.7L+ 0.6L2−0.3L+ 0.1L2 1− 0.4L+ 0.8L2

Déterminons E (Y ) :

E (Yt) = Φ (1)−1 c =1.2 −0.1−0.2 1.4

−131

=2.591.8

= µ

On pose ∀t ∈ Z

Yt(4,1)=

Yt − µYt−1 − µ =

y1,t − 2.59y2,t − 1.8y1,t−1 − 2.59y2,t−1 − 1.8

vt(4,1)=

εt0(2,1)

=

ε1,tε2,t00

et

A(4,4)=

Φ1 Φ2I2 0(2,2)

=

−0.2 −0.7 0.4 0.6−0.3 −0.4 0.1 0.81 0 0 00 1 0 0

Alors on montre que la représentation V AR (1) du processus Yt est identique à la représen-

tation V AR (p) du processus Yt puisque :

Yt = AYt−1 + vt

⇐⇒

y1,t − 2.59y2,t − 1.8y1,t−1 − 2.59y2,t−1 − 1.8

=

−0.2 −0.7 0.4 0.6−0.3 −0.4 0.1 0.81 0 0 00 1 0 0

y1,t−1 − 2.59y2,t−1 − 1.8y1,t−2 − 2.59y2,t−2 − 1.8

+

ε1,tε2,t00


⇐⇒ y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 − 0.4y1,t−2 − 0.6y2,t−2 + ε1,ty2,1 = 1 + 0.3y1,t−1 + 0.4y2,t−1 − 0.1y1,t−2 − 0.8y2,t−2 + ε2,t

1.5. Représentation VMA

Considérons un processus vectoriel Xt, t ∈ Z, de dimension (n, 1) , stationnaire.

Remark 1. Tout comme dans le cas univarié, sous la condition de stationnarité, il estpossible d’appliquer le théorème de Wold et de représenter Xt sous la forme d’un processus

vectoriel moyenne mobile infini VMA (∞).

Nous allons à nouveau donner l’intuition du théorème de Wold appliqué aux processus

vectoriels. On considère un processus stationnaire satisfaisant la représentation V AR (p)

suivante, ∀t ∈ Z :


On sait que E (Xt) = Φ (1)−1 c = µ, où µ est un vecteur de constante (hypothèse de

stationnarité) de dimension (n, 1) .

On sait d’après la propriété précédente que ce processus V AR (p) peut être réexprimer

sous la forme d’un processus V AR (1) tel que :

Φ (L)Xt = vt ⇐⇒ Xt = AXt−1 + vt

où les processus Xt et vt, ainsi que la matrice A on été définis précédemment. Dès lors,

en itérant vers le passé, on montre que le processus Xt peut s’écrire sous la forme d’une

moyenne mobile d’ordre fini à t donné.

Xt = vt +Avt−1 +A2vt−2 + .....+AkXt−k

Si l’on suppose que les valeurs propres de la matrice A sont strictement inférieures à 1

en module (condition de stationnarité), alors limk→∞

Ak = 0. Dès lors, le processus Xt peut

s’écrire sous la forme :

Xt = limk→∞

k

i=0

Aivt−i =∞

i=0

Aivt−i = Ψ (L) vt

En reprenant la définition du processus Xt, on peut alors déterminer la décomposition

de Wold associée au processus V AR (p) Xt.


Proposition 1.6. Tout processus Xt, t ∈ Z, de dimension (n, 1) , stationnaire, satisfaisantune représentation V AR (p) , telle que, ∀t ∈ Z :

Xt = Φ1Xt−1 + Φ2Xt−2 + ...+ ΦpXt−p + c+ εt (1.15)

admet une représentation moyenne mobile convergente définie par :

Xt = µ+∞

i=0

ψiεt−i = µ+Ψ (L) εt

avec µ = E (Xt) = Φ (1)−1 c, où εt est un bruit blanc vectoriel et où la séquence des matrices

de dimension (n, n) , ψi∞i=0 satisfait ψ0 = In et est absolument sommable au sens où les

éléments ψij,k de la matrice ψi satisfont la condition :

∞

s=0

ψij,ks<∞ ∀i ≥ 1, ∀ (j, k) ∈ [1, n]2

La condition de sommabilité, qui garantit la convergence des moments d’ordre deux du

processus Xt, doit se comprendre dans ce contexte comme une condition de sommabilité sur

une séquence de matrices ψi∞i=0 . Cette condition se ramène à démontrer la sommabilité detous les éléments ψij,k de ces matrices, au sens traditionnel de la sommabilité d’une séquence

de scalaires (cf. chapitre 1).

Il est possible de déterminer de façon générale la forme des matrices de l’opérateur

polynômial associée à la représentation VMA (∞).

Proposition 1.7. Le polynôme matriciel Ψ (L) = ∞i=0 ψiL

i associé à la représentation

VMA (∞) d’un processus V AR (p) stationnaire, Xt, t ∈ Z, ∀t ∈ Z :

Xt = Φ1Xt−1 + Φ2Xt−2 + ...+ ΦpXt−p + c+ εt (1.16)

satisfait la relation de récurrence suivante :

ψ0 = In

ψs = Φ1ψs−1 + Φ2ψs−2 + ...+ Φpψs−p ∀s ≥ 1avec ψs = 0, ∀s < 0.


Preuve : Une façon simple d’obtenir la représentation VMA (∞) d’un processus V AR (p)consiste à identifier les polynômes matriciels Φ (L)−1 et Ψ (L) . En effet, dans le cas d’unprocessus centré (c = 0), on a :

Xt = Φ (L)−1 εt = Ψ (L) εt ⇐⇒ Φ (L)Ψ (L) = In

Ce égalité peut se réecrire sous la forme :

limk→∞

In − Φ1L− Φ2L2 − ...− ΦpL

p In −Ψ1L−Ψ2L2 − ...−ΨpL

p − ...−ΨkLk = In

Dès lors, on montre par identification des termes de même ordre que les matrices de

l’opérateur polynômial associée à la représentation VMA (∞) satisfont une équation derécurrence qui correspond à celle de la proposition.

Preuve : On considère un processus bi-varié stationnaire Yt, t ∈ Z admettant unereprésentation V AR (1) telle que :

Φ (L)Yt = c+ εt

avec εt i.i.d. (0,Ω) , c = (3 1) et :

Φ (L) = Φ0 + Φ1L =1 00 1

+−0.2 −0.7−0.3 −0.4 L =

1− 0.2L −0.7L−0.3L 1− 0.4L

Par application du théorème de Wold, on sait que ce processus peut être représenté

comme sous une forme VMA (∞) telle que :

Xt = µ+∞

i=0

ψiεt−i = µ+Ψ (L) εt

Immédiatement, on montre que

µ = E (Yt) =0.8 −0.7−0.3 0.6

−131

=9.256.29

Par définition, on a Φ (L)Ψ (L) = I2, ce qui peut se réecrire sous la forme :

limk→∞

(I2 − Φ1L) Ψ0 −Ψ1L−Ψ2L2 − ...−ΨpL

p − ...−ΨkLk = I2

Par identification des membres de même terme, on montre que :

Ψ0 = I2

Ψ1 = Φ1 =−0.2 −0.7−0.3 −0.4


Ψ2 = Φ1Ψ1 = Φ21 =−0.2 −0.7−0.3 −0.4

2

et de façon générale, on a :

Ψn = Φ1Ψn−1 = Φn1 =−0.2 −0.7−0.3 −0.4

n

∀n ≥ 1

On retrouve ainsi la formule générale que l’on avait établi par itération vers le passé dans

le cas d’un V AR (1):

Yt = µ+Ψ (L) εt = µ+∞

i=0

Φi1εt−i

On montre ainsi que :

Yt =y1,t−1y2,t−1

=9.256.29

+∞

i=0

−0.2 −0.7−0.3 −0.4

iε1,t−iε2,t−i

2. Estimation des paramètres

Tous comme pour les processus AR univariés plusieurs méthodes d’estimation sont envisage-

ables pour les processus V AR. La première consiste tout simplement à appliquer les MCO.

La seconde principale méthode consiste en le maximum de vraisemblance.

2.1. Maximum de Vraisemblance

On considère un processus Xt, t ∈ Z, avec Xt = (x1,t, ..., xn,t) satisfaisant la représentationV AR (p) suivante, ∀t ∈ Z :


On suppose que les innovations εt sont i.i.d.N (0,Ω) et que l’on dispose de T+p observations

du processus Xt. On cherche à déterminer la vraisemblance conditionnelle de Xt en fonction

des réalisations passées Xt−i, i ∈ [1, p] . Par définition, la distribution conditionnelle de Xts’écrit :

D (Xt/Xt−1, Xt−2, ...,Xt−p) ∼ N (c+ Φ1Xt−1 + Φ2Xt−2 − ...+ ΦpXt−p,Ω)

Afin de simplifier les calculs, on pose :

Xt(p,1)=

1Xt−1Xt−2...Xt−p

Π =

cΦ1Φ2...Φp


On a alors :

D (Xt/Xt−1, Xt−2, ...,Xt−p) ∼ N ΠXt,Ω

Si l’on note Θ le vecteur des paramètres à estimer :

Θ =Πvect(Ω)

=

cΦ1Φ2...Φpvect(Ω)

Dès lors la densité conditionnelle de Xt s’écrit :

f (Xt/Xt−1, Xt−2, ..., Xt−p;Θ) = (2π)−n/2 Ω−1

12 exp −1

2Xt − ΠXt Ω−1 Xt −ΠXt

En partant de cette expression, il est possible de dériver la vraisemblance sur l’ensemble de

l’échantillon XtTt=1 conditionnellement aux valeurs initiales (X0, X−1, X−2, ..., X−p) s’écrit

f (Xt, Xt−1,Xt−2,..., X1/Xt−1,Xt−2, ..., Xt−p;Θ) =T

t=1

f (Xt/Xt−1, Xt−2, ..., Xt−p;Θ)

La log-vraisemblance d’un processus V AR (p) s’écrit donc :

L (Θ) =T

t=1

log [f (Xt/Xt−1,Xt−2, ..., Xt−p;Θ)]

= −Tn2log (2π) +

1

2log Ω−1 − 1

2

T

t=1

Xt − ΠXt Ω−1 Xt − ΠXt (2.1)

La maximisation de cette vraisemblance permet alors d’obtenir des estimateurs conver-

gents des paramètres Π et de la matrice de variance covariance des innovations Ω.

2.2. Détermination du nombre de retards

Pour déterminer le nombre de retards optimal pour un V AR (p) , on peut utiliser plusieurs

méthodes. En particulier toutes les méthodes de comparaison de modèles étudiées dans le

chapitre précédent sont valides dès qu’elles ont été adaptées au cas vectoriel.

Une procédure type consiste à estimer tous les modèles V AR pour des ordres p allant

de 0 à un certain ordre h fixé de façon arbitraire (nombre de retards maximum pour la

taille d’échantillon considéré, ou nombre de retards maximum compatible avec une théorie


ou une intuition économique). Pour chacun de ces modèles, on calcule les fonction AIC (p)

et SC (p) de la façon suivante :

AIC (p) = ln detΩ + 2k2p

T(2.2)

FC (p) = ln detΩ +k2p ln (T )

T(2.3)

où T est le nombre d’observations, k le nombre de variable du système, Ω la matrice de

variance covariance des résidus estimés du modèle.

2.3. Prévisions

2.3.1. Le cas d’un VAR(1)

Considérons le cas d’un modèle V AR (1) centré tel que ∀t ∈ Z :

Xt = Φ0 + Φ1Xt−1 + εt

Supposons que l’on dispose d’une réalisation sur un échantillon de T réalisations (X1, X2, .., XT )

d’un estimateur convergent Φ1 de Φ1 et d’un estimateur convergent Φ0 de Φ0 La formule qui

permet d’obtenir une prévision de la réalisation à la date T + 1 du processus Xt est donc

naturellement donnée par :

XT+1 = E (Xt+1/XT , XT−1, ..., X1) = Φ0 + Φ1Xt (2.4)

A l’horizon T + 2, on a :

XT+2 = E (Xt+2/XT , XT−1, ..., X1) = Φ0 + Φ1Xt+1 = I + Φ1 Φ0 + Φ21XT (2.5)

Proposition 2.1. De la même façon à un horizon h, la prévision d’un V AR (1) est donnéepar :

XT+h = E (XT+h/XT , XT−1, ..., X1) = I + Φ1 + Φ21 + ...+ Φh−11 Φ0 + Φh1Xt

Dès lors, l’erreur de prévision s’écrit sous la forme :

XT+h −XT+h = XT+h − E (XT+h/XT ,XT−1, ...,X1)= XT+h − E (XT+h/εT , εT−1, ..., ε1)

=

h−1

i=0

Φi1εT+h−i


Par définition des bruits blancs, cette erreur de prévision a une espérance nulle. La

matrice de variance covariance de l’erreur de prévision est donc :

E XT+h −XT+h XT+h −XT+h /XT ,XT−1, ...,X1

= E εT+h + Φ1εT+h−1 + ..+ Φh−11 εT+1 εT+h + Φ1εT+h−1 + ..+ Φh−11 εT+1

= Ω+h−1

i=1

Φi1Ω Φi1

Proposition 2.2. Pour un processus V AR (1) , la matrice de variance covariance de l’erreurde prévision à un horizon h est déterminée par la relation :

E XT+h −XT+h XT+h −XT+h /XT , XT−1, ..., X1 = Ω+h−1

i=1

Φi1Ω Φi1

Les variances des erreurs de prévisions pour les processus univariés (x1,t, x2,t, ..., x3,t) sont

déterminés par la diagonale principale de cette matrice.

2.3.2. Le cas d’un VAR(p)

La variance de l’erreur de prévision s’obtient très facilement à partir de la représentation

VMA (∞) d’un V AR d’ordre p quelconque. En effet, si Xt est un processus stationnaire,

alors on peut l’écrire sous la forme :

Xt =∞

i=0

ψiεt−i = Ψ (L) εt

Dès lors, l’erreur de prévision s’écrit sous la forme :

XT+h −XT+h = XT+h − E (XT+h/XT ,XT−1, ...,X1)= XT+h − E (XT+h/εT , εT−1, ..., ε1)

=h−1

i=0

ψiεT+h−i



E XT+h −XT+h XT+h −XT+h /XT ,XT−1, ..., X1

= E εT+h + ψ1εT+h−1 + ..+ ψh−1εT+1 εT+h + ψ1εT+h−1 + ..+ ψh−1εT+1

= Ω+

h−1

i=1

ψiΩ (ψi)


Proposition 2.3. Pour un processus V AR (p) , la matrice de variance covariance de l’erreurde prévision à un horizon h est déterminée par la relation :

E XT+h −XT+h XT+h −XT+h /XT , XT−1, ...,X1 = Ω+h−1

i=1

ψiΩ (ψi)

Les variances des erreurs de prévisions pour les processus univariés (x1,t, x2,t, ..., x3,t) sont

déterminés par la diagonale principale de cette matrice.

3. Dynamique d’un modèle VAR

Les modèles V AR sont souvent analysés au travers de leur dynamique et ce via la simulation

de chocs aléatoires et l’analyse de la décomposition de leur variance.

3.1. Analyse des chocs

On considère un processus Xt, t ∈ Z, avec Xt = (x1,t, ..., xn,t) satisfaisant la représentationV AR (p) suivante, ∀t ∈ Z :


On suppose que les innovations εt sont i.i.d. (0,Ω) et que l’on dispose de T + p réalisa-

tions de ce processus. On suppose en outre que les paramètres Ω, Φi sont connus, mais la

même analyse peut être menée lorsque l’on ne dispose que d’estimateurs convergents de ces

paramètres.

Quelle est l’idée générale de l’analyse des chocs ?

Idée Générale Une fonction de réponse aux innovations résume l’information concernantl’évolution d’une composante xi,tqui intervient suite à une impulsion sur xj,t à la date

T, en supposant que toutes les autres variables sont constantes pour t ≤ T.

3.1.1. Exemple

On considère un processus bi-varié Yt, t ∈ Z admettant une représentation V AR (1) telleque :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t

y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t


On pose Yt = (y1,t y2,t) et εt = (ε1,t ε2,t) . On suppose que les chocs ε1,t et ε2,t sont

corrélés. Cette hypothèse est particulièrement importante pour la suite de cet exemple.

E (εtεt) =σ21 σ12σ12 σ22

=1 0.50.5 1

On cherche à identifier l’impact d’un choc unitaire sur y2,T à la date T sur la dynamique

de la variable y1,t aux périodes postérieures à T,en supposant les évolutions de ces deux

variables pour t ≤ T connues et données. Cela revient à supposer :

ε2,T = 1 ε2,t = 0 ∀t > T

On cherche donc à déterminer la variation de y1,t engendrée par ce choc. Pour cela

considérons la décomposition de Wold du processus Yt déterminée infra:

y1,t = µ1 +∞

i=0

Ψ1,iεt

où Ψ1,i désigne la première ligne de la matrice Ψi issue de la représentation VMA :

Yt = Ψ (L) εt =∞

i=0

ψiεt−i

Yt =y1,t−1y2,t−1

=9.256.29

+∞

i=0

−0.2 −0.7−0.3 −0.4

iε1,t−1ε2,t−1

On pourrait penser que suite au choc ε2,T = 1, dans ce cas, la suite des réalisations y1,T+hsoit donnée directement par les coefficients correspondants du vecteur Ψ1,i. On obtiendrait

ainsi une fonction de réponse de la variable y1 à une impulsion de la variable y2. C’est une

première possibilité de fonctions de réponse.

Le problème ici c’est qu’en raison de la corrélation des deux chocs, l’impulsion initiale sur

ε2,T n’est pas sans influence sur l’innovation ε1,T qui entre elle aussi dans la représentation

moyenne mobile infinie de y1,t. Conditionnellement à la réalisation de ε2,T , du fait de la

corrélation des deux chocs, la probabilité d’engendrer une innovations ε1,T non nulle est elle

même non nulle.

Or généralement, ce qui intéressant sur le plan économique c’est d’envisager une impulsion

sur la composante orthogonale de ε2,t à ε1,t. C’est à dire, il convient d’isoler l’innovation

”propre” au processus y2,t non ”polluée” par la réaction de l’innovation y1,t. C’est pourquoi,


il convient dans le cas général où E (εtεt)Ω = In, d’orthogonaliser les innovations. On

considère donc la décomposition suivante de la matrice de covariance des innovations :

Ω = ADA

où A est une matrice (2, 2) triangulaire inférieure et où D est une matrice diagonale. Dans

notre exemple, on a :

Ω =σ21 σ12σ12 σ22

=1 0σ12σ21

1

σ21 0

0 σ22 − σ212σ21

1 σ12σ21

0 1

D’où dans notre exemple :

A =1 00.5 1

D =1 00 0. 75

On pose:

vt = A−1εt

On remarque alors que les innovations vt sont des combinaisons linéaires des innovations

du modèle initial εt qui possèdent une propriété d’indépendance puisque :

E (vtvt) = A−1E (εtεt) A−1

= A−1Ω A−1

= A−1ADA A−1

= D

Donc la matrice de variance covariance des innovations vt est diagonale, ce qui prouve

que ces innovations ne sont pas corrélées. Dans notre exemple, il est très simple de constater

que cette orthogonalisation correspond à la projection linéaire des ε2,t sur les ε1,t. Le résidu

v2,t correspond à la composante orthogonale des ε2,t.

v2,t = ε2,t − σ12σ21

ε1,t = ε2,t − ε1,t2

E v2ε1,t = E v2v1,t = 0

Reprenons la décomposition de Wold associée à Yt il vient :

Yt = µ+Ψ (L) εt = µ+∞

i=0

Φi1εt−i


Or on pose εt = Avt, dès lors cette représentation VMA (∞) peut se réécrire en fonctiond’innovations vt non corrélées.

Yt = Ψ (L) εt = µ+∞

i=0

ψivt−i = µ+∞

i=0

Φi1A vt−i (3.1)

On obtient donc dans notre exemple :

Yt =y1,t−1y2,t−1

=9.256.29

+∞

i=0

−0.2 −0.7−0.3 −0.4

i1 00.5 1

v1,t−1v2,t−1

De façon équivalente on peut réecrire le V AR en fonction des seules innovations orthog-

onales :

εt = Avt ⇐⇒ ε1,tε2,t

=1 00.5 1

v1,tv2,t

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + v1,t

y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + 0.5v1,t + v2,t

Dès lors, on construit de la même façon la séquence des y1,T+h obtenus conditionnellement

à un choc unitaire sur la composante orthogonale v2,T . Cela revient à supposer :

v2,T = 1 v2,t = 0 ∀t > TVoici la représentation de ces IRF :

3.1.2. Cas général

On cherche ainsi de façon générale à se ramener à une représentation où les innovations sont

orthogonales.

Proposition 3.1. Dans le cas général où E (εtεt) = Ω = In, on orthogonalise les innovations

de la façon suivante. On pose :

vt = A−1εt (3.2)

où la matrice A est issue de l’orthogonalisation de Ω :

Ω = ADA (3.3)

où A est une matrice (2, 2) triangulaire inférieure et où D est une matrice diagonale. On

cherche donc à récrire le système V AR non plus en fonction des innovations corrélés εt, mais

en fonction des innovations orthogonales vt qui satisfont :

E (vtvt) = D matrice diagonale (3.4)


Figure 3.1: Fonction de Réponses de y1

Proposition 3.2. Cette phase d’orthogonalisation implique toutefois que l’ordre dans lequelsont disposées les variables du V AR affecte l’analyse dynamique et en particulier l’analyse

des fonctions de réponse.

En effet, reprenons l’exemple précédent. On considère un processus bi-varié Yt, t ∈ Zadmettant une représentation V AR (1) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t

y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t

On suppose que les deux chocs ε1,t et ε2,t sont corrélés et ont des variances différentes.

cov (ε1,tε2,t) =1

2σ21 = 1 σ22 = 2

Il existe deux façons d’écrire le V AR, soit on pose Yt = (y1,t y2,t) , soit l’on écrit Yt =

(y2,t y1,t) . Le choix de l’ordre des variables va dès lors conditionner notre schéma d’orthog-

onalisation :

1. Cas 1 : on écrit Yt = (y1,t y2,t) et εt = (ε1,t ε2,t) . Dès lors, on pose :

E (εtεt) = Ω =σ21 σ12σ12 σ22

=1 0.50.5 2


Dans ce cas, on a :

Ω = ADA =1 00.5 1

1 00 1. 75

1 0.50 1

Les innovations orthogonales sont donc définit par

: vt = A−1εt ⇐⇒ v1,t

v2,t=

1 00.5 1

−1ε1,tε2,t

=1 0−0.5 1

ε1,tε2,t

⇐⇒ v1,t = ε1,tv2,t = −1

2ε1,t + ε2,t

Dès lors v2,t mesure la composante de ε2,t orthogonale à ε1,t.

2. Cas 2 : on écrit Yt = (y2,t y1,t) et εt = (ε2,t ε1,t) . Dès lors, on pose :

E (εtεt) = Ω =σ22 σ12σ12 σ22

=2 0.50.5 1

Dans ce cas, on a :

Ω = ADA =1 00.25 1

2 00 7

8

1 0.250 1

Les innovations orthogonales sont donc définit par :

vt = A−1εt ⇐⇒ v2,t

v1,t=

1 00.25 1

−1ε2,tε1,t

=1 0−0.25 1

ε2,tε1,t

⇐⇒ v1,t = −14ε2,t + ε1,t

v2,t = ε2,t

Dans ce cas, v2,t n’est rien d’autre que ε2,t, qui par nature est corrélé avec ε1,t.

3. En conséquence, dans cet exemple on montre que (i) si l’on désire étudier l’impact

d’une innovation ”pure” du processus y2,t sur le niveau de y1,t, et que (ii) on retient

cette méthode d’orthogonalisation, il convient d’écrire le système V AR sous la forme

Yt = (y1,t y2,t) . Bien entendu, les fonctions de réponse obtenues dans les deux cas ne

sont pas identiques.

Résultat De façon générale dans l’écriture d’un V AR, la variable, que l’on suppose économique-ment être la variable explicative, doit figurer après la variable dont on veut expliquer

les évolutions.

La démonstration de ce principe dans le cas général d’un V AR à n variables est donnée

dans Hamilton (1994), pages 291 et suivantes.


3.2. Décomposition de la variance

Définition Partant de la décomposition des résidus en innovations ”pures” ou orthogonales,on peut calculer quelle est la contribution de chaque innovation à la variance totale de

l’erreur de prévisions du processus xi,t. C’est ce que l’on appelle la décomposition de la

variance.

On considère processus Xt, t ∈ Z, avecXt = (x1,t, ..., xn,t) satisfaisant la représentationV AR (p) suivante, ∀t ∈ Z :


On suppose que les innovations εt sont i.i.d. (0,Ω) On suppose que ce processus est station-

naire et peut être représenté sous la forme d’un VMA (∞) :

Xt =∞

i=0

ψiεt−i = Ψ (L) εt

avec ψi = In L’erreur de prévision à l’horizon h s’écrit est :

Xt+h −XT+h = Xt+h − E (Xt+h/XT ,XT−1, ..., X1)= Xt+h − E (Xt+h/εT , εT−1, ..., ε1)

=h−1

i=0

ψiεT+h−i



E Xt+h −XT+h Xt+h −XT+h = Ω+h−1

i=1

ψiΩ (ψi)

Cette erreur de prévision est donc exprimée en fonction de la matrice de variance covari-

ance Ω non diagonale des résidus εt.

Pour obtenir une décomposition de la variance du vecteur Xt = (x1,t, ..., xn,t) il suffit de

réexprimer cette matrice de variance covariance sous la forme d’une combinaison linéaire des

variances des innovations orthogonales vt.

vt = A−1εt ⇐⇒ εt = Avt (3.5)


où la matrice A est issue de l’orthogonalisation de Ω :

Ω = ADA

On suppose que ∀t ∈ Z :

εt =

ε1,tε2,t...εn,t

= a1(n,1)

a2(n,1)

.. an(n,1)

v1,tv2,t...vn,t

où ai désigne la ieme colonne de la matrice A. Dès lors :

Ω = E (εtεt) = a1a1var (v1,t) + a2a2var (v2,t) +

+.....+ ananvar (vn,t) (3.6)

En substituant cette expression dans la variance de la prévision pour un horizon h,

cela donne permet de réexprimer cette variance en fonction de la variance des innovations

”orthogonales” :

E Xt+h −XT+h Xt+h −XT+h

= Ω+h−1

i=1

ψiΩ (ψi)

=n

j=1

var (vj,t)h−1

i=0

ψi ajaj (ψi)

Proposition 3.3. A partir de cette formule, on est en mesure de calculer la contributiond’une innovation pure vj,t à la variance totale de la prévision à un horizon h :

var (vj,t) aja j + ψ1 ajaj (ψ1) + ....+ ψh−1 ajaj ψh−1 (3.7)

4. La causalité

Une des questions que l’on peut se poser à partir d’un V AR est de savoir s’il existe une rela-

tion de causalité entre les différentes variables du système. Il existe ainsi plusieurs définitions

de la causalité :

• causalité au sens de Granger

• causalité au sens de Sims


Nous nous limiterons à l’exposé de la causalité au sens de Granger qui est la plus fréquem-

ment utilisée en économétrie. On se restreint au cas d’un processus bi-varié (n = 2) que

l’on

Zt =ytxt

4.1. Causalité au sens de Granger

La question est de savoir si la variable x ”cause” ou non la variable y.

Definition 4.1. On dit que la variable x cause au sens de Granger la variable y si etseulement si la connaissance du passé de x améliore la prévision de y à tout horizon.

De cette définition découle un corollaire :

Corollary 4.2. On dit que la variable x ne cause pas la variable y au sens de Granger, siet seulement si :

E (yt+h/yt, yt−1, ..., y1) = E (yt+h/yt, yt−1, ..., y1, xt, xt−1, .., x1)

De façon équivalente, on dit alors que la variable y est exogène au sens des séries temporelles.

4.1.1. Application au cas d’un V AR (p) avec n = 2

Pour un V AR (p) avec n = 2 la condition de la causalité de Granger est immédiate à obtenir.

Résultat Dans le système bi-varié suivant V AR (p) :∀t ∈ Z

Zt =ytxt

=c1c2

+φ111 φ112φ121 φ122

yt−1xt−1

+φ211 φ212φ221 φ222

yt−2xt−2

+...+φp11 φp12φp21 φp22

yt−pxt−p

+εy,tεx,t

(4.1)

la variable xt ne cause pas la variable yt si et seulement si :

φ112 = φ212 = φ312 = ... = φp12 = 0 (4.2)

Autrement dit, la variable xt ne cause pas la variable yt si et seulement si les matrices

Φi sont toutes triangulaires inférieures pour ∀i ∈ [1, p] .


En effet, réécrivons le processus sous cette condition, on a :

Zt =ytxt

=c1c2

+φ111 0φ121 φ122

yt−1xt−1

+φ211 0φ221 φ222

yt−2xt−2

+...+φp11 0φp21 φp22

yt−pxt−p

+εy,tεx,t

(4.3)

Dès lors,

E (yt+h/yt, yt−1, ..., y1) = c1 + φ111yt + φ211yt−1 + ..+ φp11yt−p+1

E (yt+h/yt, yt−1, ..., y1, xt, xt−1, .., x1) = c1 + φ111yt + φ211yt−1 + ..+ φp11yt−p+1

On a bien alors :

E (yt+h/yt, yt−1, ..., y1) = E (yt+h/yt, yt−1, ..., y1, xt, xt−1, .., x1)

Cointégration et Modèle à Correction d’Erreur

January 8, 2002

1. Cointegration

1.1. Cointégration

Rappelons la définition d’un porcessus intégré :

Definition 1.1. Un processus est (xt, t ∈ Z) est un processusDS (Differency Stationnary)d’ordre d, ou un processus iintégré d’ordre d, si le processus filtré défini par (1− L)d xt eststationnaire.

Partant de là, on peut introduire la notion de cointégration :

Definition 1.2. On considère un processus vectoriel Xt = (x1,t x2,t...xN,t) de dimension(N, 1) intégré d’ordre d. Les processus (xi,t, t ∈ Z) sont dits cointégrés si et seulement si ilexiste un vecteur α = (α1 α2...αN ) ∈ RN tel que la combinaison linéaire αXt est stationnaireou intégré d’ordre 0. Le vecteur α correspond à un vecteur de cointégration.

Considérons l’exemple suivant :

y1,t = γy2,t + ε1,t (1.1)

y2,t = y2,t−1 + ε2,t (1.2)

où (ε1,t, t ∈ Z) et (ε2,t, t ∈ Z) sont deux bruits blancs non corrélés. La série y2,t est une marchealéatoire intégrée d’ordre , I (1) puisque la différence première ∆y2,t = ε2,t est stationnaire.De la même façon, la série y1,t proportionnelle à un choc stationnaire près, à y1,t est elle aussinon statioonaire et I (1) . En effet la différence première

∆y1,t = γ∆y2,t + ε1,t = γε2,t + ε1,t

est stationnaire. Considérons à présent la combinaison linéaire

y1,t − γy2,t = ε1,t (1.3)

Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 43

Cette combinaison est elle aussi stationnaire. On dit que les processus (y1,t, t ∈ Z) et(y2,t, t ∈ Z) sont cointégrés de vecteur (1,−γ) . Bien entendu, toute transformation monotonedu vecteur (1,−γ) permet d’obtenir une autre relation de cointégration. C’est pourquoi levecteur (1,−γ) constitue en fait une base de l’espace de cointégration.

La relation de cointégration s’assimile donc à une relation de long terme entre les variablesde l’espace de cointégration et permet de définir une ou plusieurs tendances stochastiquescommunes. Bien entendu, les réalisations des processus de l’espace de cointégration peuventà tout moment ne pas satisfaire cette relation. Mais ces variables ne peuvent durablements’en écarter. On peut ainsi introduire la notion d’ECM : Modèle à Correction d’Erreur.

2. Représentation VECM

2.1. Modèle à Correction d’Erreur : ECM

Il s’agit ici de proposer dans un modèle intégré une représentation statique qui constitue unecible de long terme (la relation de cointégration) et une représentation dynamique de courtterme (l’ajustement à cette cible).

Reprenons l’exemple précédent :

y1,t = γy2,t + ε1,t (2.1)

y2,t = y2,t−1 + ε2,t (2.2)

Considérons l’équation de y1,t :

y1,t = γy2,t + ε1,t

y1,t−1 = γy2,t−1 + ε1,t−1 = γy2,t−1 + [y1,t−1 − γy2,t−1]

On peut alors réécrire l’équation de y1,t sous la forme suivante :

∆y1,t = − [y1,t−1 − γy2,t−1] + γ∆y2,t + ε1,t (2.3)

Cette dernière équation constitue une représentation ECM. En effet, la dynamique dutaux de croissance de y1,t est déterminée par une cible de long terme (la relation de cointé-gration y1,t−1 − γy2,t−1). Si il existe un écart positif à la période t − 1 par rapport à cetterelation de long terme, alors le coefficient négatif devant la relation de long terme (−1),implique une diminution du taux de croissance de y1 à la date t. On dit que le coefficient−1 constitue une force de rappel. Enfin, la composante dynamique du modèle est représentépar la partie γ∆y2,t.

Considérons à présent le cas général avec N processus (xi,t, t ∈ Z).


Definition 2.1. On considère N processus (xi,t, t ∈ Z) intégrés d’ordre un satisfaisant unerelation de cointégration représentée par le vecteur α telle que la combinaison linéaire :

µt = α0 + α1x1,t + α2x2,t + ...+ αNxN,t

soit stationnaire. Alors il existe une représentation ECM pour chaque processus (xi,t, t ∈ Z)tel que :

∆xi,t = c+ γµt−1 +p

k=1

β1,i∆x1,t−k +p

k=1

β2,i∆x2,t−k....+p

k=1

βN,i∆xN,t−k + εt (2.4)

Le coefficient γ < 0 représente la force de rappel de l’ECM.

Si le coefficient γ devant le résidu de la relation de cointégration est positif ou nul, lareprésentation ECM n’est pas valide.

Exemple

2.2. Généralisation de la représentation VECM

On considère un processus V AR (p) , noté Xt de dimension (N, 1) tel que :

Xt = A0 +A1Xt−1 +A2Xt−2 + ..+ApXt−p + εt

Nous allons représenter ce processus sous la forme d’un VECM. Pour cela on considèrel’équation suivante :

Xt −Xt−1 = A0 + (A1 − I)Xt−1 +A2Xt−2 + ..+ApXt−p + εt

⇐⇒ ∆Xt = A0 + (A1 − I) (Xt−1 −Xt−2) + (A2 +A1 − I)Xt−2 + ..+ApXt−p + εt

⇐⇒ ∆Xt = A0 + (A1 − I)∆Xt−1 + (A2 +A1 − I) (Xt−2 −Xt−3) + ..+ApXt−p + εt

Et ainsi de suite. On se ramène finallement à une représentation susceptible d’être unVECM :

∆Xt = B0 +B1∆Xt−1 +B2∆Xt−2 + ...+Bp−1∆Xt−p+1 +ΠXt−1 + εt

où les matrices Bi sont fonctions des matrices Ai et où

Π =

p

k=1

Ak − I

Considérons l’exemple d’un V AR (2) :

Xt = A0 +A1Xt−1 +A2Xt−2 + εt


On obtient de cette façon l’équation :

Xt −Xt−1 = A0 + (A1 − I)Xt−1 +A2Xt−2 + εt

⇐⇒ ∆Xt = A0 + (A1 − I) (Xt−1 −Xt−2) + (A2 +A1 − I)Xt−2 + εt

⇐⇒ ∆Xt = A0 + (A1 − I)∆Xt−1 + (A2 +A1 − I)Xt−2 + εt

Mais il convient de faire apparître le niveau de Xt−1 pour éventuellement faire apparaîtreles résidus des relations de cointégration de la période précédente. Pour cela, on réalisel’opération suivante :

∆Xt = A0 + (A1 − I)∆Xt−1 + (A2 +A1 − I)Xt−2− (A2 +A1 − I)X + (A2 +A1 − I)Xt−1 + εt

On obtient finalement :

∆Xt = A0 − A2∆Xt−1 + (A1 +A2 − I)Xt−1 + εt

ou encore∆Xt = B0 +B1∆Xt−1 +ΠXt−1 + εt

avec B1 = −A2, B0 = A0 et Π = (A1 +A2 − I) .

Definition 2.2. De façon générale, la matrice Π peut s’écrire sous la forme :

Π =P

k=1

Ak − I = α β

où le vecteur α est la force de rappel vers l’équilibre de long terme et β la matrice dont lesvecteurs colonnes sont constitués par les coefficients des différentes relations de cointégrationpouvant exister entre les éléments du vecteurXt. Le rang de la matriceΠ détermine le nombrede relations de cointégration présentes entre les N variables du vecteur Xt.

r = nombre de relations de cointégration

Si le rang de la matrice Π (c’est à dire le nombre de colonnes linéairement indépendantes)est égal à la dimension N du V AR alors toutes les variables du V AR sont stationnaires I (0)et le problème de la cointégration ne se pose pas.

Definition 2.3. Si en revanche, le rang de la matrice Π satisfait :

1 ≤ r ≤ N − 1alors il existe r relations de cointégration et la représentation VECM est valide :

∆Xt = B0 +B1∆Xt−1 +B2∆Xt−2 + ...+Bp−1∆Xt−p+1 + α µt−1 + εt

avec µt = βXt−1


2.3. Test du nombre de relation de cointégration

Le test de Johansen (1988) est fondé sur l’estimation de

∆Xt = B0 +B1∆Xt−1 +B2∆Xt−2 + ...+Bp−1∆Xt−p+1 +ΠYt−1 + εt

Ce test est fondé sur les vecteurs propres correspondant aux valeurs propres les plusélevées de la matrice Π. Nous ne présenterons ici que le test de la trace. A partir des valeurspropres de la matrice Π, on construit la statistique :

λtrace (r) = −TN

i=r+1

log (1− λi)

où T est le nombre d’observations, r le rang de la matrice, λi la ieme valeur propre et Nle nombre de variables du V AR. Cette statistique suit une loi de probabilité tabulée parJohansen et Juselius (1990). Ce test fonctionne par exclusion d’hypothèses alternatives :

1. Test H0 : r = 0 contre H1 : r > 0. Test de l’hypothèse aucune relation de cointégrationcontre au moins une relation. Si λtrace (0) est supérieur à la valeur lue dans la tableau seuil α%, on rejette H0, il existe au moins une relation, on passe alors à l’étapesuivante, sinon on arrête et r = 0.

2. Test H0 : r = 1 contre H1 : r > 1. Test de l’hypothèse une relation de cointégrationcontre au moins deux relation. Si λtrace (1) est supérieur à la valeur lue dans la tableau seuil α%, on rejette H0, il existe au moins une relation, on passe alors à l’étapesuivante, sinon on arrête et r = 1.

Et ainsi de suite jusqu’à la dernière étape (si elle est nécessaire) :

1. Test H0 : r = N − 1 contre H1 : r > N − 1. Test de l’hypothèse N − 1 relationde cointégration contre au moins N − 1 relations. Si λtrace (N − 1) est supérieur à lavaleur lue dans la table au seuil α%, on rejette H0, il existe N relations (en fait dansce cas les N variables sont I (0)) sinon r = N − 1.

Sous Eviews vous disposez directement des valeurs λtrace (r) pour r = 1,N ainsi que lesseuils tabulés par Johansen.