Ch18 Modèles d'équations Simultanées

51
Chapitre 18 Mod` eles d’Equations Simultan´ ees 18.1 Introduction Pendant de nombreuses ann´ ees, le mod` eles d’´ equations simultan´ ees lin´ eaire a ´ et´ e le centre d’int´ erˆ et de la th´ eorie ´ econom´ etrique. Nous avons abord´ e un cas particulier de ce mod` ele, un mod` ele d’offre-demande `a deux´ equations, dans la Section 7.3. L’objet de cette discussion ´ etait simplement de monter que la si- multan´ eit´ e implique une corr´ elation entre les r´ egresseurs et les termes d’erreur de chaque ´ equation de syst` eme, rendant les OLS non convergents et justifi- ant l’usage des variables instrumentales. La non convergence des estimateurs par moindres carr´ es des ´ equations individuelles dans les mod` eles d’´ equations simultan´ ees n’est pourtant pas le seul r´ esultat ´ econom´ etrique pour ce genre de mod` ele. Dans ce chapitre, nou discutons donc des mod` eles d’´ equations simultan´ ees en d´ etail. La grande majorit´ e du travail r´ ecent sur les mod` eles d’´ equations simul- tan´ ees s’est d´ evelopp´ e sous la bienveillance de la Commisssion Cowles; Koop- mans (1950) et Hood et Koopmans (1953) sont des r´ ef´ erences connues. Ce travail a fortement influenc´ e la direction suivie par la th´ eorie ´ econom´ etrique depuis de nombreuses ann´ ees. Pour une histoire sur le d´ eveloppement r´ ecent de l’´ econom´ etrie, consulter Morgan (1990). Parce que la litt´ erature consacr´ ee aux mod` eles d’´ equations simultan´ ees est vaste, nous ne traiterons qu’une petite partie de celle-ci. Il existe un grand nombre d’´ etudes sur ce champ th´ eorique, et de nombreux ouvrages qui se situent `a des niveaux diff´ erents. Deux articles de synth` ese int´ erssants sont ceux de Hausman (1983), qui traite de la litt´ erature traditionnelle, et Phillips (1983), qui traite du champ plus sp´ ecifique de la th´ eorie en petit ´ echantillon dans les mod` eles d’´ equations si- multan´ ees, un sujet que nous n’aborderons pas du tout. La caract´ eristique essentielle des mod` eles d’´ equations simultan´ ees est que deux ou plusieurs variables endog` enes sont d´ etermin´ ees simultan´ ement par le mod` ele, comme des fonctions de variables exog` enes, de variables pr´ ed´ etermin´ ees, et d’al´ eas. A ce stade, nous en avons dit tr` es peu sur ce que nous entendons par variables exog` enes et pr´ ed´ etermin´ ees. Puisque le rˆole de telles variables est essentiel dans les mod` eles d’´ equations simutlan´ ees, il est temps de corriger le d´ efaut. Dans la Section 18.2, nous discutons par cons´ equent en d´ etail du concept important de l’exog´ en´ eit´ e. 622

Transcript of Ch18 Modèles d'équations Simultanées

Page 1: Ch18 Modèles d'équations Simultanées

Chapitre 18

Modeles d’Equations Simultanees

18.1 Introduction

Pendant de nombreuses annees, le modeles d’equations simultanees lineaire aete le centre d’interet de la theorie econometrique. Nous avons aborde un casparticulier de ce modele, un modele d’offre-demande a deux equations, dans laSection 7.3. L’objet de cette discussion etait simplement de monter que la si-multaneite implique une correlation entre les regresseurs et les termes d’erreurde chaque equation de systeme, rendant les OLS non convergents et justifi-ant l’usage des variables instrumentales. La non convergence des estimateurspar moindres carres des equations individuelles dans les modeles d’equationssimultanees n’est pourtant pas le seul resultat econometrique pour ce genrede modele. Dans ce chapitre, nou discutons donc des modeles d’equationssimultanees en detail.

La grande majorite du travail recent sur les modeles d’equations simul-tanees s’est developpe sous la bienveillance de la Commisssion Cowles; Koop-mans (1950) et Hood et Koopmans (1953) sont des references connues. Cetravail a fortement influence la direction suivie par la theorie econometriquedepuis de nombreuses annees. Pour une histoire sur le developpement recentde l’econometrie, consulter Morgan (1990). Parce que la litterature consacreeaux modeles d’equations simultanees est vaste, nous ne traiterons qu’unepetite partie de celle-ci. Il existe un grand nombre d’etudes sur ce champtheorique, et de nombreux ouvrages qui se situent a des niveaux differents.Deux articles de synthese interssants sont ceux de Hausman (1983), qui traitede la litterature traditionnelle, et Phillips (1983), qui traite du champ plusspecifique de la theorie en petit echantillon dans les modeles d’equations si-multanees, un sujet que nous n’aborderons pas du tout.

La caracteristique essentielle des modeles d’equations simultanees estque deux ou plusieurs variables endogenes sont determinees simultanementpar le modele, comme des fonctions de variables exogenes, de variablespredeterminees, et d’aleas. A ce stade, nous en avons dit tres peu sur ceque nous entendons par variables exogenes et predeterminees. Puisque le rolede telles variables est essentiel dans les modeles d’equations simutlanees, ilest temps de corriger le defaut. Dans la Section 18.2, nous discutons parconsequent en detail du concept important de l’exogeneite.

622

Page 2: Ch18 Modèles d'équations Simultanées

18.1 Introduction 623

La majeure partie du chapitre sra consacree au modele d’equations si-multanees. Supposons qu’il y ait g variables endogenes, et par consequent gequations, et k variables exogenes ou predeterminees. Alors le modele peutetre ecrit sous forme matricielle comme

YΓ = XB + U. (18.01)

Ici, Y designe une matrice de dimension n × g de variables endogenes, Xdesigne une matrice de dimension n × k de variables exogenes ou predeter-minees, Γ designe une matrice de dimension g × g de coefficients, B designeune matrice de dimension k × g de coefficients, et U desigen une matrice dedimension n× g de termes d’erreur.

Il est immediatement clair que le modele (18.01) comprend beaucoup tropde parametres a estimer. Une observation type pour l’equation l peut s’ecriresous la forme

g∑

i=1

ΓilYti =k∑

j=1

BjlXtj + utl.

La multiplication de tous les parametres Γil et Bjl par n’importe quelle con-stante non nulle aurait pour effet de multiplier utl par cette constante pourtout t, mais ne modifierait pas la structure des aleas dans les observations.Il est donc necessaire d’imposer une sorte de nomrmalisation pour chaqueequation du modele. Une normalisation evidente consiste a poser Γii = 1pour tout i; chaque variable endogene, de y1 a yg, serait alors associee a uncoefficient unitaire dans une et une seule equation. Cependant, comme nousl’avons vu dans la Section 7.3, de nombreuses autres normalisations pourraientetre envisagees. Nous pourrions, par exemple, poser Γ1l = 1 pour tout l; lecoefficient associe a la premiere variable endogene serait ainsi egal a l’unitedans chaque equation.

Le modele (18.01) n’a pas de sens si la matrice Γ n’est pas inversible,car sinons il serait impossible de determiner Y de maniere unique en tant quefonction de X et U. Nous pouvons donc postmultiplier des deux membres de(18.01) par Γ−1 pour obtenir

Y = XBΓ−1 + UΓ−1 (18.02)

= XΠ + V . (18.03)

L’expression (18.02) est la forme reduite contrainte, ou FRC, et l’expression(18.03) est la forme reduite libre, ou FRL. Les contraintes sont Π = BΓ−1.Notons que, meme dans le cas improbable ou les colonnes de U etaientindependantes, celles de V ne le seraient pas. Ainsi les diverses equationsde la forme reduite possedent preque surement des aleas correles.

L’imposition des contraintes de normalisation est necessaire mais nonsuffisante pour obtenir des estimations de Γ et B. Le probleme est que, a

Page 3: Ch18 Modèles d'équations Simultanées

624 Modeles d’Equations Simultanees

moins de lui imposer des contrantes, le modele (18.01) a beaucoup trop deparametres inconnus. La matrice Γ possede g2 − g coefficients, du fait des gconraintes de normalisation, alors que la matrice B en possede gk. Il y a doncg2 + gk − g coefficents structurels au total. Mais la matrice Π sous la formereduite libre ne possede que gk coefficients. Il est a l’evidence impossible dedeterminer les g2 + gk − g coefficients structurels a partir des gk coefficientsde la FRL. Il faudra imposer au moins g2 − g contraintes sur Γ et/ou B afind’etre en mesure d’identifier le modele. Il existe une vaste litterature con-sacree a l’identification dans les modeles d’equations simultanees, qui abordele probleme des conditions sous lesquelles certains ou tous les parametres detel modele peuvent etre identifies. Nous livrerons les principaux resultats decette litterature dans la Section 18.3.

La grande partie restante du chapitre traite des merhodes d’estimationdiverses et variees pour les modeles d’equations simultanees. La Section 18.4aborde l’estimation par maximum de vraisemblance du modele dans son en-semble sous l’hypothese de normalite, une technique connue sous le nom demaximum de vraisemblance en information complete, ou FIML. La section quisuit traite de l’estimation par maximum de vraisemblance de chaque equationseparement, technique que l’on nomme maximum de vraisemblance en in-formation limitee, ou LIML. Puis dans la Section 18.6, nous discuterons destriples moindres carres, ou 3SLS, que l’on derive comme une application de lamethode des moments generalisee. Enfin, les modeles d’equations simultaneesseront abordes dans la Section 18.7.

18.2 Exogeneite et Causalite

Dans le cas d’une equation de regression unique, nous estimons la distribu-tion, ou du moins l’esperance et la variance, d’une variable endogene condi-tionnellement aux valeurs de certaines variables explicatives. Dans le cas d’unmodele d’equations simultanees, nous estimons la distribution jointe de deuxou plusieurs variables endogenes conditionnellement aux valeurs de certainesvariables explicatives. Mais nous n’avons encore rien dit sur les conditionssous lesquelles nous pouvons considerer une variable comme explicative. Pourque l’inference conditionnelle soit valable, les variables explicatives doiventetre soit predeterminees soit exogenes dans un sens ou un autre que nousallons definir.

Dans un contexte de serie temporelle, nous avons vu que les variablesaleatoires qui sont predeterminees peuvent etre employees sans risque en tantque variables explicatives dans une estimation par moindres carres, du moinsasymptotiquement. En realite, les variables endogenes retardees sotn abon-damment utilisees en tant que variables explicatives et en tant qu’instruments.Cependant, il y a de nombreux cas, et parmi eux le cas des modeles es-times a l’aide de donnees en coupe tranversale, ou nous voulons utiliser entant que variables explicatives des variables qui ne sont pas des variables

Page 4: Ch18 Modèles d'équations Simultanées

18.2 Exogeneite et Causalite 625

predeterminees. De plus, le concept de predetermination se revele etre plusdelicat que ce que l’on imagine, puisque la predetermination n’est pas invari-ante a la parametrisation du modele. Ainsi il est calir que nous avons besoind’un concept plus general que celui de la predetermination.

Il est pratique de debuter par des definitions formelles du concept depredetermination et du concept etraitement relie de l’exogeneite faible. Cefaisant, nous suivons l’expose classique de ces themes, tel qu’il apparaıt chezEngle, Hendry, et Richard (1983). Les lecteurs devraient etre prevenus quecet article, bien qu’etant une reference classique, n’est pas du tout evident alire. Notre discussion sera grandement simplifiee par rapport a la leur, et sefondera sur un contexte plus general, puisque ces auteurs se concentrent surles modeles parametriques pleinement specifies et estimables par maximumde vraisemblance. Nous nous refererons, malgre tout, a un de leurs exemplespour une illustration concrete d’un nombre de points.

Soit Yt le vecteur de dimension 1 × g l’observation t d’un ensemble devariables que nous voulons modeliser dans un processus simultane, et soitXt le vecteur de dimension 1 × k l’observation t d’un ensemble de variablesexplicatives, dont toutes ou certaines peuvent etre des Yt retardes. Nouspouvons ecrire un modele d’equations simultanees, en general nobn lineaire,sous la forme

ht(Yt, Xt,θ) = Ut, (18.04)

ou ht est un vecteur de dimension 1×g de fonctions, comparable a la fonctionde regression d’un modele univarie, ou θ est un vecteur de parametres dedimensionp, et ou Ut est un vecteur de dimension 1 × g d’aleas. Le modelelineaire (18.01) peut etre considere comme un cas particulier de (18.04) sinous le mettons sous la forme

YtΓ = XtB + Ut

et si nous faisons en sorte que θ soit compose de tous les elements de Γet B qu’il faut estimer. Ici Xt et Yt sont les t ieme lignes des matrices Xet Y . On pourrait baser un ensemble de conditions portant sur les moments(conditionnels) sur (18.04), en ecrivant

E(ht(Yt, Xt, θ)

)= 0,

ou l’esperance pourrait s’interpreter comme etant conditionnelle a un ensembled’information approprie.

Definition 18.1.Les variables explicatives Xt sont predeterminees dans l’equation i dumodele (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,

Xt‖ ui,t+s pour tout s ≥ 0.

Page 5: Ch18 Modèles d'équations Simultanées

626 Modeles d’Equations Simultanees

Le symbole ‖ est ici employe pour exprimer l’independance statistique. Ladefinition est valable quel que soit le contexte, et en particulier le contexte desseries temporelles pour lequel il existe un ordre naturel. Le prochain conceptne necessite pas un tel ordonnancement.Definition 18.2.

Les variables explicatives Xt sont strictement exogenes dans l’equationi du modele (18.04) si, pour tout t = 1, . . . , n,

Xt‖ Us pour tout s = 1, . . . , n.

Si (18.04) represente une forme structurelle, alors autant la predetermina-tion que l’exogeneite stricte nous autorise a traiter cette forme comme unecaracterisation du processus generant Yt conditonnellement a Xt. Ainsinous pouvons, par exemple, ecrire une fonction de log-vraisemblance baseesur (18.04), que l’on peut maximiser pour obtenir des estimations conver-gentes des parametres θ; voir la Section 18.4. Si l’on pense que (18.04) doitfournir des conditions portant sur les moments conditionnels, alors autant lapredetermination que l’exogeneite stricte nous autorise a employer les colonnesde X comme instruments dans l’estimation de θ par une sorte quelconque deprocedure IV, telle que les 2SLS, 3SLS ou la GMM. En reclamant cette pro-priete, nous supposons qu’il y a suffisamment d’instruments dans X pouridentifier tous les parametres de θ.

Helas, le concept de l’exogeneite stricte est beaucoup trop contraignant,du moins pour les applications sur series temporeles. Dans ce contexte, untres petit nombre de variables sont strictement exogenes, bien que beaucoupsoient predeterminees. Cependant, comme nous allons le montrer, une vari-able peut etre predeterminee ou non dans un meme modele selon la manierede le parametrer. En plus de cela, la predetermination n’est pas toujoursnecessaire pour une estimation convergente. Ce concept est par consequenttres peu satisfaisant.

Considerons le modele simultane suivant, tire de Engle, Hendry, etRichard (1983):

yt = βxt + ε1t (18.05)

xt = δ1xt−1 + δ2yt−1 + ε2t, (18.06)

ou les aleas sont normalement, identiquement, et independemment distribuespour tout t, avec une matrice de covariance donnee par

Σ ≡[

σ11 σ12

σ12 σ22

].

Si σ12 6= 0, xt est correle a ε1t et l’estimation de (18.05) par OLS ne sera pasconvergente parce que xt n’est pas predetermine dans (18.05).

Page 6: Ch18 Modèles d'équations Simultanées

18.2 Exogeneite et Causalite 627

Considerons a present l’esperance de yt conditionnellement a xt et a tousles yt et xt retardes. Nous avons

E(yt |xt, yt−1, xt−1 · · ·) = βxt + E(ε1t |xt, yt−1, xt−1 · · ·). (18.07)

Remarquons que ε2t est defini par (18.06) comme une combinaison lineairedes variables conditionnantes. Ainsi l’esperance conditionnelle de ε1t dans(18.07) est

E(ε1t | ε2t) =σ12

σ22ε2t =

σ12

σ22(xt − δ1xt−1 − δ2yt−1).

Nous pouvons par consequent ecrire

yt = bxt + c1xt−1 + c2yt−1 + vt, (18.08)

avecb = β +

σ12

σ22, c1 = − δ1

σ12

σ22, c2 = − δ2

σ12

σ22, (18.09)

ou vt est independent de xt. Ainsi xt est predetermine dans (18.08), quelleque soit la valeur de σ12, bien qu’il ne soit pas predetermine dans (18.05)lorsque σ12 6= 0.

Nous retournerons a ce modele plus tard. Pendant ce temps, progressonsvers un concept plus approprie que la predetermination dans le contexte dumodele simultane. Parce que nous voulons savoir si les variables explicativesXt sont determinees simultanement aux Yt nous aurons besoin de travailleravec des DGP qui generent a la fois Yt et Xt. Comme d’habitude, nouspouvons representer un DGP par une densite de probabilite, ou mieux parson logarithme, que l’on peut exprimer comme la somme de contributions dechaque observation; voir la Section 8.2. La contribution de l’observation t estde la forme

`t(Yt, Xt |Ωt). (18.10)

Cette expression est le logarithme de la densite jointe de Yt et Xt condition-nellement a l’ensemble d’information Ωt. Ce dernier est compose de toutesles observations sur Yt et Xt, de la premiere a la (t− 1)th.

L’expression (18.10) peut etre decomposee en deux contributions, l’unecorrespondant au logarithme de la densite de Yt cnditionnellement a Xt etΩt, et la seconde correspondant au logarithme de la densite de Xt condition-nellement a Ωt:

`t(Yt, Xt |Ωt) = `Yt (Yt |Xt, Ωt) + `X

t (Xt |Ωt), (18.11)

avec une notation evidente. A ce stade, nous souhaitons pouvoir faire ab-straction de la seconde partie des contributions dans (18.11), puisqu’elle neconcerne que les variables explicatives.

Page 7: Ch18 Modèles d'équations Simultanées

628 Modeles d’Equations Simultanees

Sous quelles conditions pouvons-nous faire abstraction de la seconde con-tribution? Pour repondre a cette question, considerons tout d’abord unmodele, M, compose de DGP representes par des ensembles de contribu-tions de la forme (18.11). Puis, definissons une application definissante desparametres: M → Θ ∈ Rp qui associe un vecteur de parametres a p com-posantes θ(µ) ∈ Θ a chaque µ ∈ M. Le vecteur de parametres θ contientles parametres d’interet, c’est-a-dire ceux que nous vouons estimer. Commenous allons le voir, il peut y avoir d’autres parametres, appeles, parametresperturbateurs, que nous ne souhaitons pas estimer.

Definition 18.3.Les variables expliatives Xt sont faiblement exogenes pour le modeleparametrique (M, θ) si

(i) il existe un sous-modele MX qui contient les DGP pour les vari-ables explicatives Xt seulement;

(ii) il existe un sous-modele conditionnel MY qui contient les DGPpour les variables endogenes Yt conditionnellement aux variablesexplicatives Xt;

(iii) le modele complet M comprend tous les DGP joints (µY, µX), ouµX est un element arbitraire de MX et ou µY est un elementarbitraire de MY ; et

(iv) il existe une application definissante des parametres θY : MY → Θtelle que, pour tout µ ≡ (µY, µX) ∈M, θ(µ) = θY (µY ).

Cette definition necessite quelques mots d’explication. Les DGP du sous-modele MX sont caracterises par des serise des contributions telles que `X

t

dans (18.11), alors que ceux de MY sont caracterises par des contributionstelles que `Y

t dans cette equation. Ainsi les contributions qui caracterisentles DGP des deux sous-modeles sont tels que, pour l’observation t, la densiteest conditionnelle a tous les Ωt. Cela signifie en particulier que le processusqui genere les Xt peut tout a fait dependre des Yt retardes. La puissancede point (iii) de la definition est que le modele complet M, les DGP qui ontdes contributions comparables au membre de droite de (18.11), doit contenirtoutes les combinaisons d’elements de MX et MY possibles. Le point (iv)indique que les parametres du modele ne dependent que du DGP conditionnelqui genere les Yt conditionnellement aux Xt. Autrement dit, les parametresassocies au DGP (µY, µX) ne dependent que de µY. Si on remplace µX par unautre DGP pour les memes variables explicatives, disons νX, les parametresne sont pas modifies.

Engle, Hendry, et Richard pretendent que l’exogeneite faible au sens de ladefiniiton precedente est precisement cedont nous avons besoin pour estimeret realiser des inferences sur les parametres θ without sans tenir compte dusous-modeleMX . Afin d’estimer les modeles par maximum de vraisemblance,cela est suffisament clair. La fonction de log-vraisemblance est la somme descontributions du type (18.11). Seul le premier terme, issu du sous-modele

Page 8: Ch18 Modèles d'équations Simultanées

18.2 Exogeneite et Causalite 629

MY, peut dependre de θ. La maximisation de la fonction de log-vraisemblancedans sa totalite est donc equivalente a la maximisation de la fonction de log-vraisemblance partielle

`Y (Y n, Xn;θ) ≡n∑

t=1

`Yt (Yt |Xt,Ωt; θ)

par rapport a θ. De la meme facon, en ce qui concerne l’inference, le gradientet la matrice Hessienne de la fonction de log-vraisemblance complete ` parrapport a θ sont identiques a ceux de la fonction de log-vraisemblance partielle`Y.

Voyons comment s’applique la Definition 18.3 au modele defini par (18.05)et (18.06). A l’evidence, (18.06) correspond au sous-modele MX et (18.05)correspond au sous-modele MY. Notons que (18.06) fait usage des valeursretardees de yt. Remarquons que si les “parametres” δ1 et δ2 etaient definispar l’application definissante des parametres, l’exogeneite faible serait sanspertinence, puisque les δi apparaissent seulement dans le sous-modele MX.Pour eviter cette difficulte apparente, nous supposerons que l’applicationdefinissante des parametres ne definit que le parametre β. Ainsi, dans cecas, nous mettons les parametres δi et les elements de la matrice de covar-iance Σ sur un pied d’egalite, en tant que parametres perturbateurs. Le seulparametre d’interet est β.

Un DGP du sous-modeleMX peut maintenant etre specifie en donnant lesvaleurs des parametres perturbateurs δi et la densite marginale des aleas ε2t,qui dependra de la variance non conditionnelle σ22 mais pas de σ11 ou deσ12. Pour une DGP dans MY, il est necessaire de specifier la valeur de β, leparametre qui nous interesse, et la densite de ε1t conditionnellement a ε2t,qui impliquera σ11 et σ12. A ce stade, les conditions (i), (ii), et (iv) de laDefinition 18.3 sont satisfaites. La variable xt est donc faiblement exogenepour le modele donne par (18.05), (18.06) et le parametre β des que la con-dition (iii) est satisfaite, ce qui implique que nous soyons capables d’associerdeux DGP, quels qu’ils soient , correspondant chacun a un sous-modele. Maiscela n’est pas possible en general, parce qu’il faut que σ11σ22 ≥ σ2

12 afin quela matrice de covariance de la distribution jointe de ε1t et ε2t soit semi-definiepositive. Cette inegalite ne sera satisfaite automatiquement que si nous con-traignons le modele global de sorte que σ12 = 0, ce qui rend xt faiblementexogene.

Nus voyons donc, dans ce cas, que la predetermination de xt se con-fond avec son exogeneite faible. Qu’advient-il si nous examinons le modeledonne par (18.08) et (18.06)? Souvenons-nous que xt est predetermine dans(18.08) de maniere tout a fait generale. En realite, il sera egalement faiblementexogene en general si nous modifions l’application definissante des parametres(mais pas le modele M sous-jacent) afin qu’elle decrive le parametre b au lieude β. Remarquons que meme si nous nous interessons aux parametres c1, c2,

Page 9: Ch18 Modèles d'équations Simultanées

630 Modeles d’Equations Simultanees

et a la variance des aleas vt dans (18.08)autant qu’a b, β ne peut pas etrerecompose a partir de ces parametres sans σ12. L’exogeneite faible provientdu fait que, par construction, vt est non correle a ε2t.

L’avantage de l’exogeneite faible par rapport a la predetermination dansce contexte est que sa definition fait reference a une application definissantedes parametres particuliere. cela signifie que nous pouvons dire que xt estfaiblement exogene pour β ou pas, selon le cas, et qu’elle est toujours faible-ment exogene pour b. A l’inverse, la predetermination est definie relative-ment a un equation, telle que (18.05) ou (18.08), plutot qu’a une applicationdefinissante des parametres.

Le concept de causalite au sens de Granger est egalement un concept quipeut etre important pour celui qui desire travailler conditionnellement a unensemble de variables explicatives. Comme son nom le suggere, ce concepta ete developpe par Granger (1969). D’autres definitions de la causalite ontete proposees, en particulier par Sims (1972). Les definitions de la causaliteau sens de Granger ou de Sims sont souvent equivalentes, mais pas toujours;consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupartdes usages, il semble que la causalite au sens de Granger, ou plutot son oppose,la non causalite au sens de Granger, soit le concept le plus utile.

Nous donnons a present une definition de la non causalite au sens deGranger. Tout comme la definition de l’exogeneite faible, elle est relative aucontexte des modeles M qui contiennent les DGP qui generent deux ensem-bles de variables Yt et Xt. Contrairement a celle-ci, elle ne fait referencea aucune application definissante des parametres, et n’opere pas de distinc-tion entre les variables endogenes Yt et les variables explicatives Xt. Dans ladefinition, Y t−1 et Xt−1 designent les lignes des matrices Y et X, respective-ment, anterieures a la tth. Ainsi Ωt est compose de Y t−1 et Xt−1.

Definition 18.4.

Les variables Y t−1 ne causent pas au sens de Granger les variables Xt

dans un modele M comprenant les DGP caracterises par les contribu-tions (18.11) si et seulement si

`Xt (Xt |Ωt) = `X

t (Xt |Xt−1).

Cela signifie que Y t−1 ne cause pas au sens de Granger Xt si la dis-tribution de Xt conditionnellement au passe de Xt et Yt est la memeque celle qui est conditionnelle au passe de Xt.

Un moyen pratique d’exprimer la non causalite au sens de Granger consiste adire que le passe de Yt ne contient aucune information sur Xt qui ne soit dejacontenue dans le passe de Xt. Bien que cela ne soit pas strictement exact,il est frequent de parler de causalite au sens de Granger plutot que de noncausalite au sens de Granger. Cette pratique n’entraıne en general aucuneambiguite.

Page 10: Ch18 Modèles d'équations Simultanées

18.2 Exogeneite et Causalite 631

Il est evident a partir de (18.06) que, dans le modele donne par cetteequation et par (18.05), yt cause au sens de Granger xt, a moins que δ2 = 0.Ainsi, meme si σ12 = 0, ce qui signifie que xt est faiblement exogene pourle parametre β dans (18.05), le processus generateur de xt depend du passede la variable endogene yt. par ailleurs, si δ2 = 0 mais que σ12 6= 0, yt necause pas xt au sens de Granger, bien que xt ne soit pas faiblement exogenepour β. Ainsi les deux idees de faible exogeneite et de non causalite au sens deGranger sont distinctes: aucune n’implique l’autre et aucune n’est impliqueepar l’autre.

Comme nous l’avons vu, la presence de la causalite au sens de Granger nenous empeche nullement d’estimer efficacement β et de realiser des inferencessur ce parametre sans avoir recours au processus qui genere xt si xt est faible-ment exogene pour β. Inversement, une absence d’exogeneite faible ne nousempeche nullement de faire des previsions efficaces de yt conditionnellementa xt si yt ne cause pas xt au sens de Granger. Plus precisement, supposonsque nous etablissions une equation d’anticipation de xt basee sur sont passeuniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que

E(xt |xt−1) = (δ1 + βδ2)xt−1. (18.12)

On anticiperait alors xt en termes de la valeur retardee xt−1 et d’une esti-mation du parametre d’autoregression δ1 + βδ2, obtenu, sans doute, par uneregression de xt sur sa propre valeur retardee d’une periode. Si par la suitenous souhaitons anticiper yt conditionnellement a notre prevision de xt, nousdevelopperions une equation de prevision de yt en fonction de celle de xt etdu passe des deux variables. De (18.08),

E(yt |xt, Ωt) = bxt + c1xt−1 + c2yt−1, (18.13)

ou b, c1, et c2 sont definis par (18.09). Si maintenant nous remplacons xt dans(18.13) par son anticipation (18.12), nous obtenons une prevision

b(δ1 + βδ2)xt−1 + c1xt−1 + c2yt−1. (18.14)

On deduit immediatement de (18.05) et (18.06) que

E(yt |Ωt) = βδ1xt−1 + βδ2yt−1.

Par consequent, si (18.14) doit procurer une anticipation sans biais, il estnecessaire que

b(δ1 + βδ2) + c1 = βδ1 et c2 = βδ2.

A l’aide des definitions (18.09), nous pouvons voir que ces egalites sont verifieessi δ2 = 0 ou si b = 0. La premiere condition est precisdement celle de la noncausalite au sens de Granger. La seconde corespond a un cas particulier ou

Page 11: Ch18 Modèles d'équations Simultanées

632 Modeles d’Equations Simultanees

xt ne contient aucune information sur yt qui ne soit deja contenue dans Ωt,et elle est moins interessante dabns le conteste actuel.

La conclusion en general est que lorsque nous portons notre attention surla prevision, nous pouvons anticiper les valeurs des variables Yt conditionnelle-ment aux anticipations sur les variables Xt si Y t−1 ne cause pas Xt au sensde Granger. D’autre part, si nous portons notre attention surl’estimation etl’inference pour certains parametres, nous pouvons conditionner par rapporta Xt si ces variables sont faiblement exogenes pour les parametres dans le con-texte du modele pour lequel ils sont definis. Il est interessant de combiner lesdeux idees pour definir les circonstances pour lesquelles toutes des activitespeuvent etre entreprises avec succes conditionnellement a Xt. Le conceptapproprie est celui de l’exogeneite forte, que nous definissons a present.

Definition 18.5.

Les variables explicatives Xt sont fortement exogenes pour le modeleparametrise (M, θ) comprenant les DGP qui generent a la fois lesvariables endogenes Yt et les Xt si elles sotn faiblement exogenes et siY t−1 ne cause pas Xt au sens de Granger.

Ceci complete notre discussion sur la causalite et sur l’exogeneite. Pourune discussion encore plus complete, nous orientons les lecteurs vers l’articlede Engle-Hendry-Richard. Au dela de l’introduction des concepts de faibleet de forte exogeneite, cet raticle annonce un autre concept, appele superexogeneite. Ce concept est importan tpour l’analyse politique, mais pas pourl’estimation ou l’inference, et n’est donc pas dans notre priorite immediate.

18.3 L’Identification dans les Modeles Simultanes

Le probleme de l’identification dans les modeles d’equations simultanees est,en principe, comparable a ce dont nous avons discute dans le contexte generaldes modeles paraetrises. si pour un modele M donne, il est possible de definirune application definissante des parametres, alors les parametres du modelessont identifies, dans le sens ou un seul et unique vecteur de parametres estassocie a chaque DGP dans M. Cependant, meme si une telle applicationexiste, les donnees doivent satisfaire certaines conditions pour que le modelesoit identifie par les donnees, et le DGP doit en satisfaire d’autres pour quele modele soit identifie asymptotiquement. Dans le Chapitre 5, nous avonsdefini et discute en detail du concept d’identification asymptotique, et nousl’avons compare au conept d’identification par un ensemble d’observationsparticulier. Dans le cadre des modeles d’equations simultanees, c’est biensur le premier qui nous interesse. Toutes les methodes d’estimation que nousavons etudiees se fondent sur la theorie asymptotique, et on ne peut pasesperer realiser des estimations convergentes si les parametres ne sont pasidentifies asymptotiquemen.

Page 12: Ch18 Modèles d'équations Simultanées

18.3 L’Identification dans les Modeles Simultanes 633

Dans cette section, nous traiterons de l’identification asymptotique d’unemodele d’equations simultanees par l’estimateur des doubles moindres carres,que nous avons introduit dans la Section 7.5. Cela peut paraıtre un sujetlimite, et dans un certains sens, c’est un sujet limite. Cependant, c’est unprobleme qui a donne naissance a une litterature tres vaste, et que nousne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).Il existe des modeles qui ne sont pas identifies par l’estimateur des 2SLSmais qui le sont par des d’autres, tels que l’estimateur FIML, et nous enparlerons brievement. Il n’est pas tres facile d’etendre la theorie que nouspresentons dans le contexte des modeles non lineaires, contexte pour lequel ilest habituellement recommande de se recommander de se referer a la theorieasymptotique developpee dans la Section 5.2.

Nous debutons par le modele d’equations simultanees (18.01). Ce modelecomprend les DGP qui generent les echantillons d’ou sont issus le vecteur Yt

des g variables dependantes, conditionnellement a un ensemble de variablesexogenes et dependante retardees Xt. Puisque nous avons suppose que lesvariables exogenes Xt sont faiblement exogenes, nous pouvons faire abstrac-tion du processus qui les genere. Afin de poursuivre notre discussion surl’identification, il fait poser quelques hypotheses sur les aleas Ut. Il faut bienevidemment que E(Ut) = 0, et il semble raisonnable de supposer qu’ils sontindependants en serie et que E(Ut

>Ut) = Σt, ou Σt est une matrice definiepositive pour tout t. Si l’on veut realiser de inferences a partir de la matrice decovariance des 2SLS, il est necessaire d’imposer l’homoscedasticite des aleas,c’est-a-dire d’imposer Σt = Σ pour tout t.

Il est pratique de traiter l’identification des parametres equation parequation dans un modele d’equations simultanees, puisqu’il est parfaitementenvisageable d’identifier les parametres d’une equation quelconque meme siceux des autre equations ne le sont pas. Pour simplifier la notation, nousne considererons, sans perte de generalite, que les parmetres de la premiereequation du systeme, c’est-a-dire les elements des premieres colonnes des ma-trices Γ et B. Comme nous l’aons note dans la Section 18.1, il faut imposerdes contraintes sur les elements de ces matrices pour les identifier. Il esthabituel de supposer que ces contraintes prennent toutes la forme de con-traintes de nullite de certains parametres. On dit qu’une variable est ex-clue d’une equation lorsque le coefficient correspondant est contraint a zero;autrement, on parle de variable incluse dans l’equation. Comme nous l’avonsvu dans la Section 6.4, il est toujours possible de reparametriser les con-traintes dans un contexte d’equation unique pour leur donner la forme decontraintes de nullite. Mais dans un contexte d’equatiosn simultanees, detelle reparametrisations n’existent en general qu’en l’absence de contraintesd’equations croisees, c’est-a-dire des contraintes qui impliquent les parametresde plus d’une equation du systeme. S’il existe des contraintes d’equationscroisees, alors il faut abandonner le contexte des systemes lineaires, quoi que

Page 13: Ch18 Modèles d'équations Simultanées

634 Modeles d’Equations Simultanees

l’on veuille tenter. Il nous faut egalement abandonner l’estimateur 2SLS sinous voulons imposer des contraintes d’equations croisees.

Partitionnons la matrice Y comme suit:

Y = [ y Y1 Y2 ] , (18.15)

ou le vecteur colonne y est la variable endogene associee au coefficient uni-taire dans a premiere equation du systeme, les colonnes de la matrice Y1 dedimension n×g1 sonbt les variables endogenes non exclues de cette equatiobnpar des contraintes de nullite, et ou les colonnes de la matrice Y2 de dimen-sion n× (g − g1 − 1) sont les variables endogenes exclues. Pareillement, nouspartitionnons la matrice X des variables exogenes:

X = [ X1 X2 ] , (18.16)

ou les colonnes de la matrice X1 de dimension n×k1 sont les variables exogenesqui sont incluses dans l’equation, et ou celles de la matrice X2 de dimensionn× (k − k1) sont les variables exogenes exclues.

De facon coherente avec la partition de Y et X, nous pouvons partitionnerle smatrices de coefficients Γ et B comme suit:

Γ =

1 Γ02

−γ1 Γ12

0 Γ22

et B =

[β1 B12

0 B22

]. (18.17)

Les lignes de Γ sont partitionnees comme les colonnes de Y dans (18.15), etcelle de B le sont comme les colonnes de X dans (18.16). En plus de cela,nous avons partitionne les colonnes de Γ et B pour qu’elles puissent separerles premieres colonnes de chaque matrice des autres colonnes, puisque ce sontles premieres colonnes qui contiennent les parametres de la premiere equationdu systeme. On peut donc ecrire la premiere equation comme suit:

y = Y1γ1 + X1β1 + u = Zδ + u, (18.18)

ou la matrice Z de dimension n × (g1 + k1) est [X1 Y1], et ou le vecteurparametrique δ est [β1

.... γ1].Pour obtenir une estimation 2SLS de δ, nous devons utiliser des variables

instrumentales. Les colonnes de X1, qui sont exogenes, peuvent servir en tantqu’instruments, et celles de X2 constituent des instruments supplementaires.Si les colonnes de X sont les seuls instruments disponibles, il va de soi qu’unecondition necessaire a l’identification de δ, que ce soit avec des echantillonsfinis ou asymptotiquement, est que X possede au moins autant de colonnesque Z. Cela revient a dire que X2 doit posseder au moins autant de colonnesque Y1, c’est-a-dire que k−k1 ≥ g1. Autrement dit, il faut qeue le nombre desvariables exogenes exclues soit au moins aussi grand que celui des variablesendogenes incluses. Cette condition est connue sous le nom de conditiond’ordre pour l’identification. Cependant, comme nous le verrons, c’est unecondition necessaire mais qui n’est pas suffisante en general.1

1 Si on adment la possibilite de contraintes d’equations croisees, cette conditiond’ordre n’est plus du tout necessaire.

Page 14: Ch18 Modèles d'équations Simultanées

18.3 L’Identification dans les Modeles Simultanes 635

Il n’est pas evident que X fournisse toutes les variable s instrumen-tales requises. Pourquoi ne pas employer d’autres variables endogenes oupredeterminees qui sont correlees aux variables endogenes Y1? Meme dansle cas ou la condition d’ordre est verifiee, ne pourrions-nous pas faire us-age d’autres instruments disponibles pour obtenir des estimations plus effi-caces? Il s’avere que l’usage d’instruments supplementaires ne permet pasd’indentifier asymptotiquement des parametres qui ne le sont pas. De plus,lorsque les aleas u sont homoscedastiques et independants en serie, les instru-ments supplementaires n’apportent aucun gain d’efficacite.

Pour mettre en evidence ces resultats, nous considerons la forme reduitecontraintes (18.02) correspondant a (18.01). Par un leger abus de notation,nous poserons simplement

Y = XΠ + V , (18.19)

en definissant Π par BΓ−1. Il sera necessaire de partitionner Π con-formement aux partitions (18.17) de Γ et B:

Π =[

π1 Π11 Π12

π2 Π21 Π22

]. (18.20)

La partition des lignes est ici la meme que celle de B dans (18.17), et lapartition des colonnes est identique a celle de Γ dans la meme equation,ainsi qu’a celle de Y dans (18.15). Nous supposerons que les donnees ont etegenerees par le processus (18.19) avec Π = Π0 = B0Γ

−10 .

Considerons a present l’identification du vecteur parametrique δ dansl’equation (18.18) pour n’importe quelle matrice W d’instruments valables,c’est-a-dire n’importe quelle matrice W telle que plim(n−1W>W ) est unematrice definie et deterministe, et telle que plim(n−1W>V ) = 0. A partirdes resultats de la Section 7.8, δ est identifiable par les donnees si la ma-trice Z>PWZ est definie positive, et il est identifiable asymptotiquement siplim(n−1Z>PWZ) est definie positive. Pour etudier cette limite en proba-bilite, examinons la matrice

1−nW>Z = 1−

nW>[ X1 Y1 ]

= 1−nW>[ X1 X1Π11 + X2Π21 + V1 ] , (18.21)

ou le bloc V1 de la matrice d’aleas V correspond au bloc Y1 de Y dans (18.15),et ou les coefficients de la forme reduite sont evaluees avec Π = Π0.

L’orthogonalite asymptotique entre les instruments W et la matriced’aleas V signifie que la limite en probabilite de (18.21) est

plimn→∞

(1−nW>[ X1 X1Π11 + X2Π21 ]

). (18.22)

Ceci montre clairement que, quel que soit le choix d’une matrice d’instrumentsW, le rang de la matrice (18.22) ne peut exceder k, qui est precisement le nom-bre de variables exogenes lineairement independantes. Toutes les colonnes de

Page 15: Ch18 Modèles d'équations Simultanées

636 Modeles d’Equations Simultanees

la matrice partitionnee dans (18.22) sont des colonnes de X ou des combi-naisons lineaires de ces colonnes. Il s’ensuit que le rang de plim(n−1Z>PWZ)ne peut jamais depasser k lui non plus. Ainsi, si Z possede plus de k colonnes,ce qui implique une violation de la condition d’ordre, plim(n−1Z>PWZ) estsinguliere, et donc, non definie positive. Nous concluons que la conditiond’ordre est bien necessaire pour l’identification asymptotique de δ, quel quesoit l’ensemble d’instruments employe.

Puis nous montrons que, sous les hypotheses d’homoscedasticite et d’in-dependance en serie des aleas u, les colonnes de X offrent des instrumentsoptimaux pour l’estimation de δ. Il y a deux eventualites possibles. Dansla premiere, S(X) ⊂ S(W ). Puisque X1 et X2 appartiennent a S(X), nousvoyons a partir de (18.22) que

plimn→∞

(1−nZ>PWZ

)= plim

n→∞

(1−nZ>PXZ

)

= plimn→∞

(1−n[ X1 X1Π11 + X2Π21 ]>[ X1 X1Π11 + X2Π21 ]

).

Ainsi l’ajout d’instruments W a ceux offerts par X ne produit aucun gaind’efficacite asymptotique. Puique cela contribuera a accroıtre le biais dansles echantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser cesinstruments supplementaires.

Dans la seconde, S(X) n’est pas un sous-espace de S(W ). Cela impliqueque, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inferieura celui de X. Par consequent, plim(n−1Z>PXZ) − plim(n−1Z>PWZ) estune matrice semi-definie positive pour toute matrice d’instruments W. Ils’ensuit que (voir l’Annexe A) plim(n−1Z>PWZ)−1 − plim(n−1Z>PXZ)−1

est egalement une matrice semi-definie positive. Ainsi la matrice de covar-iance asymptotique que l’on obtient a l’aide de la matrice d’instruments X,a savoir σ2 plim(n−1Z>PXZ)−1, etablit une borne inferieure pour la matricede covariance asymptotique pour tout estimateur IV.

De la discussion precedente et des resultats de la Section 7.8, il ressortque la condition necessaire et suffisante pour l’identification asymptotique deδ a l’aide des instruments optimaux X est simplement que plim(n−1Z>PXZ)soit non singuliere. La litterature traditionnelle sur les modeles d’equationssimultanees fait reference a cette condition en tant que condition de rang pourl’identification, pour des raisons evidentes. Cependant, un expose aussi simplede cette condition est tresb rare. Au lieu de cela, la condition est typiquementexprimee en termes des coefficients de Γ et B de la forme structurelle ou descoefficients de la forme reduite contrainte. Etant donne que nous avons definiΠ en termes de Γ et B uniquement, toutes condition que l’on peut exprimeren termes d’un ensemble de coefficients peut s’exprimer en termes de l’autre.

Nous allons a present montrer comment on peut exprimer la condition,qui veut que plim(n−1Z>PXZ) soit non singuliere, en termes de contraintes

Page 16: Ch18 Modèles d'équations Simultanées

18.3 L’Identification dans les Modeles Simultanes 637

sur Π dans le DGP. Les parametres γ1 et β1 de la premiere equation struc-turelle peuvent etre identifies si et seulement on peut les retrouver de faconunique a partir de la matrice Π des parametres de la forme reduite contrainte.Cette matrice, par definition, satisfait l’equation ΠΓ = B, dont nous pouvonsecrire la premiere colonne sous la forme

π1 + Π11γ1 = β1

π2 + Π21γ1 = 0

en vertu des partitions de (18.17) et (18.20). La premiere de ces deuxequations sert a definir β1 en termes de Π et γ1, et nous permet de voirque β1 peut etre identifie si γ1 l’est aussi. La seconde equation montre queγ1 est determine de facon unique si et seulement si la sous-matrice Π21 est deplein rang en colonnes, c’est-a-dire si le rang de la matrice est egal au nom-bre de ses colonnes (voir l’Annexe A). La sous-matrice Π21 possede k − k1

lignes et g1 colonnes. Par consequent, si la condition d’ordre est satisfaite, ily a au moins autant de lignes que de colonnes. La condition a l’identificationde γ1, mais aussi a celle de β1, est que les colonnes de Π21 soient lineairementindependantes.

Il est instructif de voir pourquoi cette derniere condition est equivalentea la condition de rang en termes de plim(n−1Z>PXZ). Si, comme nousl’avons suppose tacitement tout au long de cette discussion, les variablesexogenes X satisfont la condition que plim(n−1X>X) est definie positive,alors plim(n−1Z>PXZ) peut ne pas etre de plein rang si plim(n−1X>Z) a unrang inferieur a g1 + k1, le nombre de colonnes de Z. La limite en probabilitede la matrice n−1X>Z provient de (18.22), en remplacant W par X. Si nousfaisons abstractin de la limite en probabilite et du facteur n−1 pour simplifierla notation, la matrice pertinente peut s’ecrire comme suit:

[X1>X1 X1

>X1Π11 + X1>X2Π21

X2>X1 X2

>X1Π11 + X2>X2Π21

]. (18.23)

La matrice (18.23) n’est pas de plein rang g1 + k1 si et seulement s’il existeun vecteur non nul θ ≡ [θ1

.... θ2] de dimension (g1 + k1) tel que (18.23) fois cevecteur donne un vecteur nul. Si nous explicitons cette condition, et si nousarrangeons les differents termes, nous obtenons

[X1>X1 X1

>X2

X2>X1 X2

>X2

] [θ1 + Π11θ2

Π21θ2

]= 0. (18.24)

La premiere matrice du membre de gauche est simplement X>X, et elle estclairement non singuliere. La condition porte alors sur les deux equationsvectorielles

θ1 + Π11θ2 = 0 (18.25)

Π21θ2 = 0. (18.26)

Page 17: Ch18 Modèles d'équations Simultanées

638 Modeles d’Equations Simultanees

Si ces equations sont verifiees pour un vecteur θ non nul, il est clair que θ2

ne peut pas etre nul. Par consequent, la seconde equation n’est verifiee quesi Π21 n’est pas de plein rang. Alors si la condition de rang en termes deZ>PXZ n’est pas verifiee, alors elle ne l’est pas non plus en termes de Π21.Inversement, supposons que (18.26) soit verifiee pour un vecteur θ2 non nulquelconque de dimension g1. Alors Π21 n’est pas de plein rang. Definissonsθ1 en termes de θ2 et Π grace a (18.25). Alors (18.25) et (18.26) impliquentensemble (18.24), et la condition de rang initiale n’est pas satisfaite. Ainsi lesdeux versions de la condition de rang sont equivalentes.

Nous terminons cette section en etablissant, sans demonstration, unetroisieme version de la condition de rang, equivalente aux deux premieres, entermes des parametres structurels Γ et B. Il est impossible d’exprimer cettecondition exclusivement ne termes des parametres γ1 et β1 de la premiereequation. Au contraire, ce sont uniquement les valeurs des autres parametresqui determinent la possible identification de γ1 et β1. Ce troisieme exposede la condition de rang est formule de la maniere suivante. Construisons lamatrice de dimension (g − g1 − 1 + k − k1)× (g − 1)

[Γ22

B22

].

Alors la condition de rang est satisfaite si et seulement si cette matrice est deplein rang g − 1.

Nous n’avons discute dans cette section que des conclusions les plus im-portantes d’un programme de recherche ambitieux. Hsiao (1983) donne untraitement plus precis. Nous n’avons pas gere des problemes tels que lescontraintes d’equatios croisees ou les contraintes impliquant la matrice decovariance Σ; voir Rothenberg (1971), Richmond (1974), et Hausman etTaylor (1983), parmi d’autres. Dans la pratique, la condition d’ordre pourl’identification est beaucoup plus utile que la condition de rang parce qu’elleest beaucoup plus difficile a verifier. Cependant, la condition de rang a uninteret theorique certain, et il est instructif de voir qu’elle peut s’exprimercomme une condition tres simple portant sur la limite en probabilite d’unecertaine matrice qui doit etre de plein rang. Elle est donc equivalente a lacondition portant sur un certain estimateur 2SLS, celui qui utilise en tantqu’instruments toutes les variables exogenes et predeterminees, qui doit avoirune matrice de covariance asymptotique non singuliere.

18.4 Maximum de Vraisemblance en Information Complete

Il est possible d’etablir une classification de deux facons des modeles d’equa-tions simultanees. La premiere classification naturelle distingue les methodesequation par equation des methodes systemiques. Les premieres, dont lesrepresentants principaux sont les 2SLS et le LIML, estiment le modele

Page 18: Ch18 Modèles d'équations Simultanées

18.4 Maximum de Vraisemblance en Information Complete 639

equation par equation. Les secondes, dont les representants principaux sont les3SLS et le FIML, estiment tous les parametres du modele en meme temps. Lesadjectifs “information limitee” et “information complete” qui composent lesnoms LIML et FIML montrent clairement que la premiere methode s’appliqueequation par equation, et que la seconde s’applique au systeme dans sa glob-alite. Les methodes equation par equation sont plus faciles a mettre en oeuvre,alors que les methodes systemiques produisent des estimations potentiellementplus efficaces.

L’autre classification naturelle distingue les methodes basees sur le max-imum de vraisemblance, a savoir le LIML et FIML, des methodes baseessur les variables instrumentales ou la methode des moments generalises, dontles representants les plus connus sont les 2SLS et les 3SLS. Les methodesdu ML produisent des estimations invariantes a la reparametrisation (voir laSection 8.3) alors que ce n’est pas le cas des methodes des IV. Nous avonsdeja vu en detail les 2SLS dans le Chapitre 7. Au cours de cette section, nousfournirons un traitement detaille de FIML, qui differe des 2SLS quelle que soitla classification retenue. Les sections suivantes seront consacrees au LIML etaux 3SLS.

Tous les estimateurs d’equations simultanees tentent de gerer le fait queles aleas des equations structurelles sont correles avec n’importe quelle variableendogene apparaissant dans l’equation. Cette correlation rend les OLS nonconvergents. Nous avons vu que les 2SLS gerent ce probleme en remplacantles regresseurs defectueux par des instruments. D’un autre cote, le FIMLgere ce probleme par la maximisation d’une fonction de log-vraisemblancequi implique un terme Jacobien qui n’est pas simplement la transformationd’une somme de residus au carre. Le FIML gere egalement deux problemesqui se manifestent dans le cadre de tout modele multivarie, qu’il y ait ou nonsimultaneite; voir la Section 9.9. Le premier probleme est que, en dehors derares cas, les aleas des differentes equations seront correles. Les techniquesequation par equation telles que les 2SLS ou le LIML ingorent purement etsimplement ce probleme. Au contraire, les techniques systemiques telles que leFIML ou les 3SLS assurent la gestion de ce probleme et devraient normalementproduire des estimations plus efficaces en general. le second probleme est que,dans de nombreux modeles, il existe des contraintes d’equations croisees. Lesmethodes equation par equation ingorent necessairement ce probleme, maisles methodes systemiques telles que le FIML en tiennent compte. Lorsque lesysteme complet est etabli, les parametres qui apparaissent dans plus d’uneequation sont automatiquement traites de facon differente des parametres quin’apparaissent que dans une seule.

Le modele d’equations simultanees lineaire (18.01), dont les aleas sontsupposes etre normalement distribues, homoscedastiques et indpendants enserie, peut s’ecrire

YtΓ = XtB + Ut, Ut ∼ N(0,Σ), (18.27)

Page 19: Ch18 Modèles d'équations Simultanées

640 Modeles d’Equations Simultanees

avec une notation qui est desormais familiere. Souvenons-nous simplementque Yt est de dimension 1× g, Γ est de dimension g× g, Xt est de dimension1 × k, B est de dimension k × g, Ut est de dimension 1 × g, et Σ est dedimension g × g. Le moyen le plus simple d’obtenir la densite de Yt consistea ecrire celle de Ut:

(2π)−g/2|Σ|−1/2 exp(− 1−

2UtΣ

−1Ut>).

Puis nous remplacons Ut par YtΓ −XtB et multiplions per un terme Jacobienapproprie. ce treme est la valeur absolue du determinant duJacobien de latransformation de Yt en Ut, c’est-a-dire le determinant de Γ. Ainsi le facteurJacobien est |detΓ |.2 Le resultat est

(2π)−g/2|det Γ ||Σ|−1/2 exp(− 1−

2

(YtΓ −XtB

)Σ−1

(YtΓ −XtB

)>).

De la, nous voyons que la fonction de log-vraisemblance est

`(B, Γ, Σ) =n∑

t=1

`t(B, Γ, Σ) = − ng−−2

log(2π) + n log |detΓ |

− n−2

log |Σ| − 1−2

n∑t=1

(YtΓ −XtB

)Σ−1

(YtΓ −XtB

)>.(18.28)

Une premiere etape pratique dans la maximisation de `(B,Γ,Σ) con-siste a la concentrer par rapport a Σ ou, comme nous l’avons fait dans laSection 9.9, par rapport a son inverse, Σ−1. Etant donne que

∂`

∂Σ−1= n−

2Σ − 1−

2

n∑t=1

(YtΓ −XtB

)>(YtΓ −XtB),

(voir Annexe A) il est evident que

Σ(B, Γ ) = 1−n

(YΓ −XB

)>(YΓ −XB). (18.29)

Nous pouvons substituer (18.29) a Σ dans (18.28) pour obetnir

`c(B, Γ ) = − ng−−2

(log(2π) + 1

)+ n log |det Γ |

− n−2

log∣∣∣ 1−n

(YΓ −XB

)>(YΓ −XB)∣∣∣.

(18.30)

2 Dans ce chapitre, nois notons |A| le determinant de A et |detA| la velruabsolue du determinant. il est necessaire d’employer la notation “det”, quenous preferons eviter par ailleurs, lorsdque la valeur absolue apparaıt dans laformule.

Page 20: Ch18 Modèles d'équations Simultanées

18.4 Maximum de Vraisemblance en Information Complete 641

Cette fonction de log-vraisemblance concentree ressemble etroitement a (9.65),la fonction de log-vraisemblance concentree pour un modele de regressionmultivariee. Remarquons que nous avons use de la meme astuce que pourevaluer le second terme de la derniere ligne de (18.28). La difference entre(9.65) et (18.30) provient de la presnece du terme Jacobien n log |det Γ |, dontnous allons evaluer le role plus tard. L’estimateur FIML ne sera pas defini sila matrice (YΓ − XB)>(YΓ − XB) qui apparaıt dans (18.30) n’est pas deplein rang pour toutes les valeurs admissibles de B et Γ, et cela necessite quen ≥ g + k. Ce resultat suggere egalement que n doit etre suffisamment grandpar rapport a g + k pour conserver au FIML de bonnes proprietes; consulterSargan (1975) et Brown (1981).

Il est revelateur de deriver cete fonction de log-vraisemblance concentreed’une maniere radicalement opposee. Cette fois, nous partons de la formereduire contrainte correspondant a (18.27), qui est

Yt = XtBΓ−1 + Vt. (18.31)

Ce systeme d’equations est juste un cas particulier du modele de regressionmultivariee etudie dans la Section 9.9, mais sous la forme (9.43), avec unensemble de fonctions de regression donne par ξt ≡ XtBΓ−1 et qui sontdes fonctions non lineaires des elements de B et Γ . La fonction de log-vraisemblance concentree correspondant a (18.31) est par consequent (9.65).dans notre cas particulier, (9.65) devient

− ng−−2

(log(2π) + 1

)− n−2

log∣∣∣ 1−n

(Y −XBΓ−1

)>(Y −XBΓ−1)∣∣∣. (18.32)

Cette nouvelle expression pour `c(B,Γ ) est egale a celle derivee precedem-ment, (18.30). L’egalite entre (18.30) et (18.32) decoule du fait que

− n−2

log∣∣∣ 1−n

(Y −XBΓ−1

)>(Y −XBΓ−1)∣∣∣

= − n−2

log∣∣∣ 1−n(Γ>)−1Γ>

(Y −XBΓ−1

)>(Y −XBΓ−1)ΓΓ−1

∣∣∣

= n log |detΓ | − n−2

log∣∣∣ 1−n

(YΓ −XB

)>(YΓ −XB)∣∣∣.

Il est interessant de noter que la fonction de log-vraisemblance con-centree pour un modele d’equations simultanees peut s’ecrire de deux manieresdifferentes, (18.30) et (18.32). Cela montre de facon tout a faut claire queles formes structurelle et reduite contrainte sont silmplement des moyensd’exprimer le meme modele. Nous pouvons assimiler le modele d’equationssimultanees soit a un type particulier de modele, dont la fonction de log-vraisemblance concentree est donnee par (18.30), soit a un cas particulierde modele de regression multivariee non lineaire, dont la fonction de log-vraisemblance concentree est identique a celle de n’importe quel autre modele

Page 21: Ch18 Modèles d'équations Simultanées

642 Modeles d’Equations Simultanees

de regression multivariee. Mis sous cette forme, nous pouvons lui appliquertous les resultats deja etablis dans le Chapitre 9 pour les modeles de regressionmultivariee. Cependant, parce que la matrice des coefficients BΓ−1 dependnon lineairement des coefficients de toutes les equations du modele, (18.32)est en general moins pratique que (18.30).

Lorsqu’il fut propose a l’origine par les chercheurs de la CommissionCowles (Koopmans, 1950), le FIML n’etait pas d’un calcul aise, parce queles maximisation de la fonction de log-vraisemblance (18.30) necessite uneoptimisation numerique. Au fur et a mesure que les ordinateurs devenaientplus puissants et que ce genre de calcul se democratisait, un certain nombre deprocedures de maximisation de la fonction de log-vraisemblance fut propose,et la plupart des progiciels d’econometrie modernes incopore au moins l’uned’elles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),et Dagenais (1978) sont des references a consulter sur ce theme.

Comme d’habitude, la matrice de covariance asymptotique des estima-tions parametriques FIML B, Γ, et Σ peut etre estime de differentes facons.Une approche qui reste relativement aisee mais peu recommandee avec de pe-tits echantillons consiste a executer une regression OPG. Cette regression ar-tificielle peut se baser sur la fonction de log-vraisemblance concentree (18.28),mais pas sur la fonction concentree (18.30), parce que cette derniere n’estpas ecrite sous la forme d’une somme de contributions. Une deuxieme ap-proche consiste a partir de la forme (18.32) de la fonction de log-vraisemblance.Comme nous l’avons mis en evidence dans la Section 9.9, le bloc de la matriced’information assovcie aux parametres des fonctions de regression d’un modelede regression multivariee est donne par (9.69), et ce bloc peut s’obtenir a l’aidede la GNR (9.58). Une troisieme approche pour estimer la matrice de covar-iance asymptotique de B et Γ consiste a utiliser la propriete d’equivalenceasymptotique entre les 3SLS et le FIML; nous verrons cette approche dans laSection 18.6.

Le terme Jacobien log |det Γ | qui apparaıt explicitement dans (18.30)joue un role fondamental dans l’estimation. Sa presence est essentielle a laconvergence des estimations ML. De plus, lorsdque le determinant de Γ tendvers zero, ce terme tend vers l’infini. Ainsi la fonction de log-vraisemblancedoit tendre vers moins l’infini chaque fois que le determinant de Γ tend verszero. Cela est coherent, parce que le modele n’est pas gerable si |detΓ | = 0, cequi implique que la vraisemblance d’un tel ensemble de parametres est nul. Defait, cela signifie que l’espace des valeurs possibles de Γ est divise en un certainnombre de regions, separees par des singularites lorsque |detΓ | = 0. Dans lecadre du modele d’offre- demande discute dans la Section 7.3, par exemple, iln’existe qu’une seule singularite, qui survient lorsque les pentes des fonctionsd’offre et de demande sont egales. On ne peut pas esperer qu’un algorithmede maximisation numerique passe a travers ces singularites en general, memesi cela peut arriver. Ainsi, lorsque nous tentons de maximiser numeriquementune fonction de log-vraisemblance, il y a peu de chances que nous trouvions le

Page 22: Ch18 Modèles d'équations Simultanées

18.4 Maximum de Vraisemblance en Information Complete 643

maximum global si la region dans laquelle l’algorithme debute ne le contientpas. Cela suggere qu’il peut etre tres important de bien choisir les valeursinitiales lorsque nous employons le FIML.

Bien que le FIML se base sur l’hypothese que les aleas sont normaux mul-tivaries, cette hypothese n’est pas necessaire pour que les estimations B et Γsoient convergentes et asymptotiquement normales. Lorsque le FIML est em-ploye alors que les aleas ne sont pas normalement distribues, c’est davantageun estimateur QML qu’un estimateur ML, et il ne sera pas asymptotiquementefficace. Comme nous l’avons vu dans la Section 9.6, tout modele de regressionpeut etre estime de facon satisfaisante par le ML sous l’hypothese de distribu-tion normale des aleas, que celle-ci soit exacte ou pas. Ce resultat s’appliqueaussi au FIML parce que, comme le montre (18.32), celui-ci estime en faitun certain modele de regression multivariee non lineaire. Toutefois, lorsquele modele d’equations simultanees sous-jacent est non lienaire, ce resultat nes’applique plus automatiquement; voir Phillips (1982).

Les tests de specification du modele sont aussi importants pour lesmodeles d’equations simultanees que pour les autres modeles econometriques.Le large eventail des tests classiques— LM, LR, Wald, et C(α)— est bien surdisponible a cet egard. Cepedant, du fait que l’estimation FIML est relative-ment couteuse et difficile, les utilisateurs peuvent etre tentes de renoncer a unprogramme de tests de specification ambitieux pour les modeles estimes parFIML. Il est par consequent utile de garder a l’esprit le fait que de nombreuxtypes de mauvaise specification du modele structurel (18.01) impliquent unemauvaise specification similaire de la forme reduite contrainte (18.03). Parexemple, si un alea quelconque du modele structurel etait correle en serie,alors, a de tres rares exceptions pres, tous les aleas de la forme reduite con-trainte doivent l’etre aussi. De maniere comparable, si un alea quelconqueetait heteroscedastique, alors tous les aleas de la forme reduite doivent l’etre.Pareillement, si les parametres du modele structurel sont non constants surl’echantillon, les parametres de la FRL ne seront pas constants non plus.Puisque les equations de la FRL sont estimes par moindres carres ordinaires,il est tres facile de les tester contre des mauvaises specifications telles que lacorrelation en serie, l’heteroscedasticite, ou encore la non constance des co-efficients. Si de tels phenomenes sont mis en evidence par les tests, on peutraisonnablement conclure que le modele structurel est mal specifie, meme s’iln’a pas encore ete estime. L’inverse n’est pas exact, cependant, puisque cestests peuvent manquer de puissance, en particulier si une seule equation struc-turelle est mal specifiee.

Un test de mauvaise specification supplementaire que l’on devrait tou-jours mener est celui des contraintes de suridentification. Dans la Section 7.8,nous avons examine la maniere de tester des contraintes de suridentifictionpour une equation unique estimee par IV ou 2SLS. Nous sommes a presentinteresses par toutes les contraintes de suridentification pour le systeme danssa globalite. Le nombre des degres de liberte pour le test est egal au nombre

Page 23: Ch18 Modèles d'équations Simultanées

644 Modeles d’Equations Simultanees

d’elements dans la matrice Π de la FRL, gk, moins le nombre de parametreslibres de B et Γ . Dans la plupart des cas, il y aura quelques contraintes desuridentification, et dans de nombreux cas, il y en aura un grand nombre. Lamaniere la plus naturelle de les tester est probablement d’employer un testLR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de(18.30) evaluee avec les estimations FIML B et Γ, et la valeur non contrainteest

− ng−−2

(log(2π) + 1

)− n−2

log∣∣∣ 1−n

(Y −XΠ

)>(Y −XΠ)∣∣∣ , (18.33)

ou Π designe les estimations OLS des parametres de la FRL. Commed’habitude, le double de la difference entre les valeurs contrainte et noncontrainte de la fonction de log-vraisemblance sera asymptotiquement dis-tribuee suivant un χ2 dont le nombre de degres de liberte est egal a celuides contraintes de suridentification. Si l’on s’attend a ce que ces contraintesde suridentification soient enfreintes et si l’on ne veut pas s’embarrasser del’estimation du modele structurel, on peut employer un test de Wald, commeByron (1974) l’a suggere.

Nous n’avons pas encore explique pourquoi les estimations OLS Π sontegalement les estimations ML. On voit aisement a partir de (18.33) que, pourobtenir des estimations ML de Π, il est necessaire de minimiser le determinant

∣∣(Y −XΠ)>(Y −XΠ)∣∣. (18.34)

Supposons que l’on evalue ce determinant avec un ensemble d’estimations Πquelconque different de Π. Puisqu’il est toujours possible d’ecrire Π = Π+Apour une certaine matrice A, (18.34) devient

∣∣(Y −XΠ −XA)>(Y −XΠ −XA)∣∣

=∣∣(MXY −XA)>(MXY −XA)

∣∣

=∣∣Y>MXY + A>X>XA

∣∣.(18.35)

Parce que le determinant de la somme de deux matrices definies positivesest toujours superieur a chacun des determinants des deux matrices (voirl’Annexe A), il vient de (18.35) que (18.34) sera superieur a Y>MXY pourtoute matrice A 6= 0. Cela implique que Π minimise (18.34), ce qui demontreque les estimations OLS equations par equation de la FRL sont egalement lesestimations ML systemiques.

Si l’on ne dispose pas d’un progiciel de regression qui calcule (18.33), ilexiste un moyen different d’y parvenir. Considerons le systeme recursif

y1 = Xη1 + e1

y2 = Xη2 + y1α1 + e2

y3 = Xη3 + [y1 y2]α2 + e3

y4 = Xη4 + [y1 y2 y3]α3 + e4,

(18.36)

Page 24: Ch18 Modèles d'équations Simultanées

18.5 Maximum de Vraisemblance a Information Limitee 645

et ainsi de suite, ou yi designe la i ieme colonne de Y . On peut interpreter cesysteme d’equations comme une simple reparametrisation de la FRL (18.03).Il est aise de voir que si l’on estime ces equations par OLS, tous les vecteursde residus seront orthogonaux: e2 sera orthogonal a e1, e3 sera orthogonala e2 et a e1, et ainsi de suite. Conformement a la FRL, tous les yi sontdes combinaisons lineaires des colonnes de X et d’erreurs aleatoires. Parconsequent, les equations de (18.36) sont correctes pour tout choix arbitrairedes parametres α: les ηi s’ajustent simplement selon le choix opere. Toutefois,si nous reclamons l’orthogonalite des termes d’erreur ei, cela sert a identifierun choix particulier unique des α. En realite, le systeme recursif (18.36)possede autant de parametres que la FRL (18.03): g vecteurs ηi, possedantchacun k elements, g − 1 vecteurs αi, avec en tout g(g − 1)/2 parametres, etg parametres de variance, ce qui donne un total general de gk + (g2 + g)/2parametres. la FRL possede gk parametres pour la matrice de covariance Πet (g2+g)/2 pour la matrice de covariance Ω, ce qui donne un total identique.La difference est que les parametres α de (18.36) ont ete remplaces par leselements non diagonaux de la matrice de covariance de V dans la FRL.

Etant donne que le systeme recursif (18.36) est une simple reparametrisa-tion de la FRL (18.03), il ne devrait pas etre surprenant d’apprendre que lafonction de log-vraisemblance pour le systeme recursif est egale a (18.33).Parce que les residus des diverses equations dans (18.36) sont orthogo-naux, la valeur des fonctions de log-vraisemblance des estimations OLS desequations individuelles. Ce resultat, que les lecteurs peuvent aisement verifiernumeriquement, fournit parfois un moyen pratique de calculer la fonction delog-vraisemblance de la FRL. En dehors de cet usage, les systemes recursifssont d’une faible utilite. Ils ne procurent aucune information que ne soit dejadisponible dans la FRL, et la reparametrisation depend de l’ordonnancementdes equations.

18.5 Maximum de Vraisemblance a Information Limitee

L’un des probleles qui se pose avec le FIML et les autres methodes systemiquesest qu’elles necessitent de la part du chercheur une specification de la struc-ture de toutes les equations du modele. La mauvaise specification d’uneequation quelconque conduira en general a des estimations non convergentespour toutes les equations. Pour eviter ce probleme, a condition que l’efficacitene soit pas cruciale, les chercheurs peuvent preferer employer des methodesequations par equation. La plus facile et la plus repandue est la methode des2SLS, mais elle souffre de deux inconvenients majeurs. les estimations qu’elleproduit ne sont pas invariantes a la reparametrisation, et, comme nous l’avonsvu dans la Section 7.5, elles peuvent etre severement biaisees avec de petitsechantillons. La methode LIML est une technique alternative qui produit desestimations invariantes et qsui, a de nombreux egards, possede de meilleuresproprietes avec des echantillons finis que les 2SLS. Bien qu’elle ait ete proposee

Page 25: Ch18 Modèles d'équations Simultanées

646 Modeles d’Equations Simultanees

par Anderson et Rubin (1949) avant l’invention des 2SLS, et qu’elle ait etel’objet d’une etude plus theorique, elle a ete peu utilisee par les econometresdans la pratique.

Comme son nom le suggere, l’idee de base du LIML consite a employerune information partielle sur la structure du modele. Supposons que l’onveuille estimer uen seule equation, disons la premiere, d’un modele struc-turel comme (18.01). Nous avons ecrit une equation comparable dans la Sec-tion 18.3 sous la forme (18.18). Nous devons prendre en compte le fait quecertaines variables apparaissant dans le membre de droite de (18.18), cellesqui correspondent aux colonnes de Y1, sont endogenes. Le meilleur moyend’en tenir compte consiste a ecrire leurs equations sous la forme reduire libre:

Y1 = X1Π11 + X2Π21 + V1, (18.37)

ou la notation est identique a celle utilisee dans la Section 18.3. La combinai-son de (18.18) et (18.37)donne le systeme d’equations

y − Y1γ1 = X1β1 + u

Y1 = X1Π11 + X2Π21 + V1.(18.38)

Remarquons que Y2 n’apparaıt plus du tout dans ce systeme d’equations.Si nous focalisons notre attention sur la premiere equation, les variables en-dogenes qui n’ y apparaissent pas sont sans interet. On peut estimer le systemed’equations (18.38) par maximum de vraisemblance, et les estimations γ1 etβ1 qui en resulten seront les estimations LIML. Tout progiciel de FIML peutetre employe a cette fin.

En fait, nous n’avons pas besoin d’un progiciel de FIML pour obtenir desestimations ML de (18.38). La matrice de coefficients des variables endogenesdans ce systeme d’equations est

[1 0

−γ1 I

]. (18.39)

Parce que cette matrice est triangulaire, son determinant est simplement leproduit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jaco-bien dans la fonction de log-vraisemblabce disparaıt, et la fonction de log-vraisemblance pour (18.38) a la meme forme que celle de n’importe quel en-semble de regression apparemment sans lien (voir la Section 9.9). Cela im-plique que l’on peut utiliser n’importe quel programme pour l’estimation dessystemes SUR pour obtenir des estimations LIML. De plus, l’application desGLS faisables a un systeme tel que (18.38), en debutant par des estimations2SLS pour la premiere equaion et OLS pour les equations restantes, produirades estimations asymptotiquement equivalentes aux estimations LIML. Pagan(1979) a suggere une procedure ou l’on itere la procedure de GLS faisablesjusqu’a ce qu’elle converge vers les veritables estimations LIML.

Page 26: Ch18 Modèles d'équations Simultanées

18.5 Maximum de Vraisemblance a Information Limitee 647

Dans la pratique, on calcule rarement les estimations LIML de cette facon,parce qu’il existe une methode plus efficace pour les calculer. Il faudrait dis-poser de davantage d’outils algebriques pour la developper, mais les resultatsterminaux seront relativement simples. A partir de (18.30), (18.32), et dufait que |Γ | = 1, nous voyons que les estimations ML peuvent s’obtenir enminimisant

∣∣(Y −XBΓ−1)>(Y −XBΓ−1)∣∣ =

∣∣(YΓ −XB)>(YΓ −XB)∣∣. (18.40)

Nous allons maintenant montrer que la minimisation du determinant dans lemembre de droite est ici equivalente a la minimisation du rapport de formesquadratiques, et que cela peut etre realise, a son tour, en resolvant un certainprobleme de valeurs propres.

Ecrivons tout d’abord la matrice BΓ−1 qui apparaıt dans le membre degauche de (18.40). De (18.17) et d’une expression pour l’inverse de (18.39),nous voyons que

BΓ−1 =[

β1 B12

0 B22

][1 0γ1 I

]=

[β1 + B12γ1 B12

B22γ1 B22

].

La matrice la plus a droite est simplement la version contrainte de Π.L’element au “nord-ouest” correspond a X1 et la matrice au “sud-est” cor-respond a X2. Puisque β1 n’apparaıt pas dans la matrice du bas et peutvarier librement, il est clair que, quelle que soit la valeur de γ1, nous pou-vons trouver des valeurs de β1 et B12 telles que l’element au “nord-ouest”prenne n’importe quelle valeur. Aurtrement dit, les contraintes sur l’equationstructurelle (18.37) n’imposent aucune contrainte sur les lignes de Π qui cor-respondent a X1. En general, cependant, elles imposent des contraintes surles lignes qui correspondent a X2.

Comme nous l’avons vu dans la section qui precedait, il y a equivalenceentre la minimisation d’un determinant tel que (18.34) sur lequel ne peseaucune contrainte et l’usage des OLS. Dans ce cas, puisqu’aucune contraintesur les lignes de Π ne correspond a X1, nous pouvons employer les OLS pourestimer ces arametres, et ensuite concentrer ce determinant par rapport a cesparametres. Ce faisant, le determinant dans le membre de droite de (18.40)devient ∣∣(YΓ −XB)>M1(YΓ −XB)

∣∣,ou, comme d’habitude, M1 designe la matrice qui projette orthogonalementsur S⊥(X1).

Nous allons a present introduire une notation nouvelle. Premierement,notons γ le vecteur [1 .... −γ1]; par consequent, Y γ ≡ y−Y1γ1. Deuxiemement,notons Y ∗ M1Y , Y ∗

1 M1Y1, et X∗ M1X2. On peut recrire le determinantdans le membre de droite de (18.40) comme

∣∣∣∣(Y ∗γ)>(Y ∗γ) (Y ∗γ)>(Y ∗

1 −X∗B22)

(Y ∗1 −X∗B22)>(Y ∗γ) (Y ∗

1 −X∗B22)>(Y ∗1 −X∗B22)

∣∣∣∣ . (18.41)

Page 27: Ch18 Modèles d'équations Simultanées

648 Modeles d’Equations Simultanees

Ce determinant ne depend que des parametres γ et B22. La prochaine etapeconsiste a concentrer par rapport aux parametres de B22, de maniere a obtenirune expression qui ne depend que de γ. Cela necessitera un usage intensif duresultat suivant, qui est demontre dans l’Annexe A:

∣∣∣∣A>A A>B

B>A B>B

∣∣∣∣ = |A>A||B>MAB|, (18.42)

ou, comme d’habitude, MA ≡ I − A(A>A)−1A>. Lorsque ce resultat estapplique a (18.41), nous obtenons

(Y ∗γ)>(Y ∗γ)∣∣(Y ∗

1 −X∗B22)>Mv(Y ∗1 −X∗B22)

∣∣, (18.43)

ou Mv designe la matrice qui projette orthogonalement sur S⊥(v), et v ≡Y ∗γ. Il n’existe qu’un seul determinant dans (18.43), et non pas deux, parceque le premier est un scalaire.

Les parametres B22 n’apparaissent que dans le second facteur de (18.43).Ce facteur est le determinant de la matrice des sommes des carres et desproduits croises des residus du systeme des regressions entier

MvY ∗1 = MvX∗B22+ residus.

Comme nous l’avons vu dans la section precedente, ce determinant peut etreminimise en remplacant B22 par son estimation, obtenue en appliquant lesOLS a chaque equation separement. La matrice des residus ainsi produite estMMvX∗MvY ∗

1 , ou MMvX∗ designe la projection sur le complement orthog-onal de S(MvX∗). Observons a present que MMvX∗Mv = Mv,X∗ , a savoirla matrice de projection associee au complement orthogonal de S(v,X∗).Consequemment, le second facteur de (18.43), lorsqu’il est minimise par rap-port a B22, est ∣∣(Y ∗

1 )>Mv,X∗Y ∗1

∣∣. (18.44)

On peut exploiter le fait que v et X∗ apparaissent de maniere symetriquedans (18.44) afin de faire dependre (18.44) de γ uniquement a travers unscalaire. Considerons le determinant

∣∣∣∣v>MX∗v v>MX∗Y ∗

1

(Y ∗1 )>MX∗v (Y ∗

1 )>MX∗Y ∗1

∣∣∣∣ . (18.45)

En utilisant (18.42), ce determinant peut etre factorise tout comme (18.41).Nous aboutissons a

(v>MX∗v)∣∣(Y ∗

1 )>Mv,X∗Y ∗1

∣∣. (18.46)

En faisant usage des definitions M1MX∗ = MX et v = M1Y γ, (18.45) peutetre recrit

∣∣∣∣γ>Y>MXY γ γ>Y>MXY1

Y1>MXY γ Y1

>MXY1

∣∣∣∣ =∣∣Γ>Y>MXYΓ

∣∣ =∣∣Y>MXY

∣∣. (18.47)

Page 28: Ch18 Modèles d'équations Simultanées

18.5 Maximum de Vraisemblance a Information Limitee 649

La premiere egalite est ici aisement verifiee en exploitant l’expression (18.39)pour Γ et les definitions de γ et Y ; souvenons- nous que γ est la premierecolonne de Γ. La seconde egalite est un resultat du fait que |Γ | = 1. Elleimplique que (18.47) ne depend pas du tout de Γ .

Enfin, nous pouvons maintenant ecrire une expression simplifiee, qui,lorsqu’elle est minimisee par rapport a γ, est egale a la valeur minimisee dudeterminant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)est egal a

∣∣(Y ∗1 )>Mv,X∗Y ∗

1

∣∣ =|Y>MXY |v>MX∗v

=|Y>MXY |

γ>Y>MXY γ.

Ainsi, en utilisant (18.43), le determinant d’origine (18.40) doit etre egal a

v>v |Y>MXY |γ>Y>MXY γ

=(γ>Y>M1Y γ)|Y>MXY |

γ>Y>MXY γ= κ |Y>MXY |, (18.48)

ou le scalaire κ a ete defini implicitement comme

κ ≡ γ>Y>M1Y γ

γ>Y>MXY γ. (18.49)

Puisque |Y>MXY | ne depend pas du tout de γ, il y a equivalence entrela minimisation de (18.48) et la minimisation de κ. Ainsi, si nous pouvonsminimiser (18.49) par rapport a γ, nous pouvons obtenir des estimations LIMLγ et une valeur associee de κ, disons κ. Lorsque les estimations LIML sontobtenues de cette maniere, on les appelle quelquefois estimations du rapportde moindre variance.

Avant de voir comment obtenir des estimations LIML γ, il nous fautdire quelques mots des consequences de (18.48) et (18.49). En premier lieu, ildevrait etre evident que κ ≥ 1. Etant donne que S(X1) est un sous-espace deS(X), le numerateur de (18.49) ne peut pas etre inferieur au denominateurpour tout γ possible. En fait, pour une equation suridentifiee, κ sera toujourssuperieur a 1 avec des echantillons finis. En ce qui concerne une equation justeidentifiee, κ sera precisement egal a 1 parce que le nombre de parametres aestimer est aloors egal a k, le rang de X. Ainsi, dans ce cas, il est possiblede choisir γ de sorte que le numerateur et le denominateur de (18.49) soientegaux.

L’expression (18.48) implique que la valeur maximisee de la fonction delog-vraisemblance concentree pour l’estimation LIML d’une unique equationest

− ng−−2

log(2π)− n−2

log(κ)− n−2

log |Y>MXY |. (18.50)

La valeur maximisee de la fonction de log-vraisemblance concentree pourl’estimation ML de la forme reduire libre est

− ng−−2

log(2π)− n−2

log |Y>MXY |.

Page 29: Ch18 Modèles d'équations Simultanées

650 Modeles d’Equations Simultanees

Par consequent une statistique LR portant sur les contraintes de suridentifi-cation implicites dans une seule equation structurelle est simplement n log(κ).Cette statistique de test fut proposee a l’origine par Anderson et Rubin (1950).

Il est aise d’evaluer κ. L’ensemble des conditions du premier ordre obtenuen derivant (18.49) par rapport a γ est

2Y>M1Y γ (γ>Y>MXY γ)− 2Y>MXY γ (γ>Y>M1Y γ) = 0.

Si nous divisons chaque membre de l’egalite par 2γ>Y>MXY γ, nous aboutis-sons

Y>M1Y γ − κY>MXY γ = 0. (18.51)

Un ensemble de conditions du premier ordre equivalent peut etre etabli enpremultipliant (18.51) par (Y>MXY )−1/2 et en inserant ce facteur multipliepar par son inverse devant γ. Apres manipulation, nous arrivons a

((Y>MXY )−1/2Y>M1Y (Y>MXY )−1/2 − κI

)(Y>MXY )1/2γ = 0.

Cet ensemble de conditions du premier ordre possede desormais la forme d’unprobleme classique de valeurs propres et vecteurs propres pour une matricereelle symetrique (voir Annexe A). Il est clair desormais que κ sera une valeurpropre de la matrice

(Y>MXY )−1/2Y>M1Y (Y>MXY )−1/2 (18.52)

et que (Y>MXY )1/2γ sera son vecteur propre associe. En realite, κ doit etrela valeur propre la plus petite, du fait que c’est la plus faible valeur du rapport(18.49).

Alors, un moyen de calculer des estimations LIML consiste a trouver levecteur propre (18.52) associe a la valeur propre la plus petite, et de la, acalculer γ, qui sera [1 .... −γ1] si le premier element est normalise a 1. On peutensuite obtenir β1 en regressant y − Y1γ1 sur X1. Une approche alternativese revele pourtant plus simple et plus revelatrice. Considerons les conditionsdu premier ordre (18.51). Si nous les exprimons en termes de y et Y1 au lieude Y , et les evaluons avec les estimations LIML, nous pouvons les recrire sousla forme

([y>M1y y>M1Y1

Y1>M1y Y1

>M1Y1

]− κ

[y>MXy y>MXY1

Y1>MXy Y1

>MXY1

])[1

−γ1

]= 0.

Pour ce qui concerne les lignes correspondant a Y1, nous avons

Y1>(M1 − κMX)y − Y1

>(M1 − κMX)Y1γ1 = 0.

En resolvant par rapport a γ1, nous obtenons

γ1 =(Y1>(M1 − κMX)Y1

)−1Y1>(M1 − κMX)y.

Page 30: Ch18 Modèles d'équations Simultanées

18.5 Maximum de Vraisemblance a Information Limitee 651

Puisque X1 ∈ S(X), M1− κMX = M1(I− κMX). A l’aide de cette proprieteet d’un peu d’algebre, on peut montrer que γ1 peut egalement se calculersuivant la formule (nous laissons la manipulation en qu’exercice)

[β1

γ1

]=

[X1>X1 X1

>Y1

Y1>X1 Y1

>(I− κMX)Y1

]−1[X1>y

Y1>(I− κMX)y

], (18.53)

qui fournit egalement β1. Alors si nous definissons Z par [X1 Y1] et δ par[β1

.... γ1], tout comme dans (18.18), (18.53) peut se recrire sous la forme tressimple

δ =(Z>(I− κMX)Z

)−1Z>(I− κMX)y. (18.54)

L’equation (18.53) est un moyen parmi d’autres d’ecrire le LIML commeun membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).L’equation (18.54) est un moyen encore plus simple d’arriver au meme but.La classe K comprend tous les estimateurs que l’on peut ecrire sous une deces deux formes, mais avec un scalaire K arbitraire a la place de κ. Nousemployons la notation K plutot que la notation plus conventionnelle k pourdesigner ce scalaire afin d’eviter la confusion avec le nombre de variablesexogenes dans le systeme. L’estimateur LIML est ainsi un estimateur de laclasse K, avec la parametrisation K = κ. Identiquement, comme (18.54)lemontre clairement, l’estimateur 2SLS est un estimateur de la classe K avecla parametrisation K = 1, et celui des OLS est egalement un estimateurde la classe K avec la parametrisation K = 0. Puisque pour une equationstructurelle juste identifiee, κ = 1, il decoule immediatement de (18.54) queles estimateurs LIML et 2SLS se confondent dans ce cas particulier.

On peut montrer que les estimaturs de la classe K sont convergentslorsque K tend vers 1 asymptotiquement a un taux plus fort que n−1/2; voirSchmidt (1976), parmi d’autres auteurs. Bien que la convergence du LIMLprovienne de resultats generaux sur les estimateurs ML, il reste interessant devoir comment ce resultat pour la classe K s’y applique. Nous avons deja vu quen log(κ) est la statistique de test LR pour l’hypothese nulle de pertinence descontraintes de suridentification sur l’equation structurelle. Un developpementde Taylor sur le logarithme nous montre que n log(κ) ∼= n(κ − 1). Puisquecette statistique de test suit asymptotiquement une loi du χ2, elle doit etreO(1), de sorte que κ − 1 doit etre O(n−1). Ceci etablit la convergence duLIML.

Il existe de nombreux autres estimateurs de la classe K. Par exemple,Sawa (1973) suggera un moyen de modifier l’estimateur 2SLS pour reduireson biais, et Fuller (1977) et Morimune (1978, 1983) suggererent des ver-sions modifiees de l’estimateur LIML. L’estimateur de Fuller, qui est le plussimple d’entre eux, utilise la parametrisation K = κ − α/(n − k), ou α estune constante positive que choisit l’experimentateur. Un choix judicieux estα = 1, puisqu’il produit des estimations approximativement non biaisees. Par

Page 31: Ch18 Modèles d'équations Simultanées

652 Modeles d’Equations Simultanees

contraste avec l’estimateur LIML qui ne possede aucun moment fini (voir Mar-iano (1982) et Phillips (1983) sur ce point), tous les moments de l’estimateurmodifie de Fuller sont finis a condition que l’echantillon soit suffisammentimportant.

Il est possible d’estimer la matrice de covariance du vecteur δ des es-timations de la classe K de differentes facons. La plus naturelle consiste autiliser

σ2(Z>(I− κMX)Z

)−1, (18.55)

ouσ2 = 1−

n(y −Zδ)>(y −Zδ).

Les statistiques de test de Wald pour les contraintes sur γ1 et β1, et parmielles les t de Student asymptotiques, peuvent se calculer a l’aide de (18.55)de la maniere habituelle. Toutefois, il est sans doute preferable d’employerdes statistiques LR, etant donne leur invariance a la reparametrisation, maisaussi compte tenu de leur facilite de calcul a partir de la fonction de log-vraisemblance concentree (18.50).

Le resultat selon lequel les estimateurs de la classe K sont convergentslorsque K tend asymptotiquement vers 1 a un taux approprie peut suggererque les 2SLS possedent de meilleures proprietes avec des echantillons finis quele LIML. Apres tout, pour les 2SLS, K est identiquement egal a 1, alors quepour le LIML, K = κ, et κ est toujours superieur a 1 avec des echantillonsfinis. Le resultat selon lequel le LIML ne possede pas de moment fini peutegalement suggerer que cet estimateur est plus pauvre que celui des 2SLS,puisque, comme nous l’avons vu dans la Section 7.5, l’estimateur des 2SLSpossedent autant de moments finis qu’il y a de contraintes de suridentification.D’un autre cote, il apparaıt que dans de nombreux cas, les 2SLS possedenten fait de pietres qualites face au LIML a de multiples egards. Anderson,Kunitomo, et Sawa (1982), par exemple, exposent des resultats analytiquesqui montrent que le LIML converge vers sa distribution asymptotique normalebeaucoup plus rapidement que ne le font les 2SLS. Contrairement a la distri-bution de l’estimateur 2SLS, dont nous avons vu qu’elle est severement bi-aisee dans certains cas, la distribution de l’estimateur LIML est generalementcentre sur une valeur proche de la veritable valeur. Mais, etant donne quecette derniere distribution ne possede pas de moment fini, nous ne pouvonspas conclure au moindre biais de l’estimateur LIML.

La Figure 18.1 donne une illustration du fonctionnement du LIML avecdes echantillons finis. Elle montre les distributions de l’estimateur 2SLS,l’estimateur LIML, et l’estimateur modifie de Fuller avec α = 1 (note LIMLFsur la figure) dans le cas examine precedemment dans la Section 7.5. Lapresence de 6 contraintes de suridentification et de seulement 25 observationexplique la divergence importante pour chaque estimateur par rapport a sadistribution asymptotique. Dans ce cas, l’estimateur 2SLS est severementbiaise vers le bas. Par ailleurs, l’estimateur LIML semble etre pratiquement

Page 32: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 653

0.0 0.5 1.0 1.5 2.00.0

0.2

0.4

0.6

0.8

1.0

.............................................................................................................................................

.................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...................................................................................................................................

.....................................................................................................................................................

.................................................................................................................................................................................

...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.......................................................

...................................................................................

.................................................................................

.............................................................................................................................................................................

.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

...........................................................

.........................................................................................................

...............................................................

2SLS→

←LIML

←−LIMLF

← Vraie valeur

Figure 18.1 Distributions des estimateurs 2SLS et LIML

sans biais dans le sens ou sa mediane est tres proche de la veritable valeurde 1. La distribution de l’estimateur modifie de Fuller se situe generalemententre celles des estimateurs 2SLS et LIML. Sa queue de distribution superieureest beaucoup plus fine que celle du LIML, mais sa mediane est quelque peuinferieure a la veritable valeur.

Dans la pratique, il n’est pas toujours aise de decider quel estimateur dela classe K utiliser. Mariano (1982) aborde un certain nombre de resultats an-alytiques et donne des conseils sur l’opportunite d’une performance meilleuredu LIML par rapport aux 2SLS. Il faudrait eviter d’employer ce dernierlorsque le nombre des contraintes de suridentification est important, par ex-emple. Cependant, cela depend enormement des caracteristiques intrinsequesdu modele et des donnees que l’on utilise. Si les resultats des 2SLS et du LIMLsont tres proches, alors le choix entre les deux est peu important. S’ils sontrelativement differents, toutefois, ce choix devient important. Sans doute lameilleure chose a faire dans ces circonstances consiste a realiser des experiencesMonte Carlo, qui sont typiquement concues pour departager les performancesrelatives des differents estimateurs pour le modele et les donnees en cause; sereporter au Chapitre 21.

18.6 Les Triples Moindres Carres

La derniere des quatre methodes principales pour l’estimation des modelesd’equations simultanees dont nous allons discuter est celle des triples moin-dres carres, ou 3SLS. Tout comme le FIML, la methode des 3SLS est une

Page 33: Ch18 Modèles d'équations Simultanées

654 Modeles d’Equations Simultanees

methode systemique, pour laquelle tous les parametres du modele sont es-times conjointement. Ainsi que son nom le suggere, on peut calculer les 3SLSen trois etapes. Les deux premieres sont celles des 2SLS classiques, appliqueesa chaque equation du systeme separement. La troisieme etape est alors es-sentiellement la meme que l’etape terminale de l’estimation par GLS faisablesd’un systeme SUR (Section 9.7). La methode fut propose par Zellner et Theil(1962).

Le moyen le plus simple de deriver l’estimateur des 3SLS, ainsi que sesproprietes asymptotiques, consiste a appliquer les principes de la methode desmoments generalisee au systeme des modeles d’equations simultanees lineaires(18.01). Pour l’observation t, ce systeme peut se mettre sous la forme

YtΓ = XtB + Ut.

L’hypothese selon laquelle toutes les variables dans X sont soit exogenes soitpredeterminees implique que, pour toutes les observations t,

E(YtΓ −XtB |Xt

)= 0.

On interprete immediatement les egalites comme des conditions portant sur lesmoments conditionnels au sens du Chapitre 17. Puisque, comme nous l’avonsvu dans la Section 18.3, les variables exogenes constituent des instrumentsefficaces pour les 2SLS si les aleas sont homoscedastiques et independants enserie, il semble raisonnable d’envisager l’ensemble suivant de conditions dupremier ordre:

E(Xt>(YtΓ −XtB)

)= 0. (18.56)

Etant donne que Xt possede k composantes et YtΓ −XtB en possede g, ily a en tout gk conditions portant sur les moments. Si la condition d’ordrepour l’idetnification est satisfaite avec une egalite, il y aurait exactementgk parametres a estimer. Ainsi (18.56) fournit toujours au moins autant deconditions portant sur les moments qu’il y a de parametres dans le systeme,et meme davantage si le systeme est suridentifie. Bien evidemment, l’utilitereelle de ces conditions sur les moments dans le processus d’identification desparametres depend asymptotiquement de la validite de la condition de rang.

Il est pratique d’ordonner differemment les elements de la matrice dedimension k×g (18.56) pour en faire un vecteur de dimension gk. En premierlieu, exprimons chaque equation du systeme dans une notation comparable acelle de (18.18):

yi = Ziδi + ui, pour i = 1, . . . , g,

ou la matrice de regresseurs Zi qui apparaıt dans l’equation i est [Xi Yi],avec ki variables exogenes Xi incluses et gi variables endogenes Yi incluses, etou le vecteur de parametres de dimension (ki +gi) δi est [βi

.... γi]. Definissonsalors le vecteur ligne Ft compose de gk elements comme:

Ft ≡ [ut1Xt · · · utgXt],

Page 34: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 655

ou uti ≡ yti − (Zi)tδi. Chaque composante de Ft est la contribution del’observation t a un des moments empiriques provenant de is the (18.56). Lamatrice F de dimension n× gk est definie pour avoir une ligne type Ft.

Pour obtenir des estimations GMM, il est necessaire de trouver une esti-mation de la matrice de covariance des gk moments (18.56). Nous ferons lesmemes hypotheses preliminaires sur les aleas que pour le FIML et le LIML.Nous supposons que chaque vecteur ui est homoscedastique et independant enserie (l’hypothese d’homoscedasticite sera relachee plus tard). Nous supposonsegalement que, pour chaque observation t, les uti sont correles entre eux, avecune matrice de covariance contemporaine de dimension g×g Σ, independantede t. Nous noterons σij un element type de Σ et σij un element type de Σ−1.

Il est relativement aise de trouver la matrice de covariance du vecteur desmoments empiriques F>ι. C’est

E(F>ιι>F

)=

n∑t=1

E(Ft>Ft

)

=n∑

t=1

E[ut1Xt · · · utgXt]>[ut1Xt · · · utgXt]. (18.57)

La derniere expression dans (18.57) est une matrice de dimension gk× gk quiapparaıt sous une forme plus lisible lorsqu’elle est partitionnee, chaque blocetant de dimension k × k. Pour chaque t, E(utiutj) = σij . Parce que leselements de σij ne dependent pas de t, nous obtenons

σ11X>X · · · σ1gX

>X...

. . ....

σg1X>X · · · σggX

>X

, (18.58)

c’est-a-dire une matrice dont le bloc type est σijX>X. Afin de construire une

fonction critere comparable a (17.54) et avec laquelle nous pourrons obtenirdes estimations des parametres vectoriels δi, i = 1, . . . , g, nous aurons be-soin d’inverser la matrice (18.58)La structure en bloc de (18.58) facilite cettemanipulation. On peut verifer facilement par une simple multiplication dematrices partitionnees que l’inverse est une matrice dont le bloc type estσij(X>X)−1 (souvenons-nous que σij est un element type de Σ−1).

Il est pratique d’exprimer le vecteur des moments empiriques F>ι sousune forme partitionnee comparable a (18.58), comme une fonction des donneeset des parametres du modele. Le resultat est un vecteur avec l’element typeX>(yi −Ziδi), pour i = 1, . . . , g:

F>ι =

X>(y1 −Z1δ1)...X>(yg −Zgδg)

. (18.59)

Page 35: Ch18 Modèles d'équations Simultanées

656 Modeles d’Equations Simultanees

Alors, si nous elaborons une forme quadratique a parir du vecteur (18.59) etde la matrice (18.58), nous aboutissons a la fonction critere

g∑

i=1

g∑

j=1

σij(yi −Ziδi

)>X(X>X

)−1X>(yj −Zjδj

)

=g∑

i=1

g∑

j=1

σij(yi −Ziδi

)>PX

(yj −Zjδj

).

(18.60)

Puisque nous supposons tacitement qu’il n’existe aucune contrainte d’equa-tions croisees, les parametres δi n’apparaissent que dans le residus de l’equa-tion i. Ainsi les conditions du premier ordre pour un minimum de (18.60)peuvent s’ecrire assez simplement comme

g∑

j=1

σijZi>PX

(yj −Zjδj

)= 0, pour i = 1, . . . , g. (18.61)

Afin de rendre (18.61) operationnelle, nous avons besoin d’estimer lamatrice de covariance des aleas, Σ. Dans le cas du modele SUR, nous pour-rions employer les OLS pour chaque equation individuellement. Puisque lesOLS sont non convergents pour les modeles d’equations simultanees, nousemployons a la place les 2SLS sur chaque equation. Ainsi les deux premieres“etapes” des 3SLS correspondent exactement aux deux etapes des 2SLS, ap-plique a chaque equation de (18.01). Les covariances des aleas sont alorsestimes a partir des residus 2SLS:

σij = 1−n

n∑t=1

utiutj . (18.62)

Bien sur, ces residus doivent correspondre aux veritables residus 2SLS, et nonaux residus de l’estimation OLS de seconde etape: voir la Section 7.5. Nousvoyons donc que les estimateurs 3SLS, δ1 a δg doivent conjointement resoudreles conditions du premier ordre:

g∑

j=1

σijZi>PX

(yj −Zj δj

)= 0. (18.63)

La solution est aisee a formuler. Si δ ≡ [δ1.... · · · .... δg] et si les matrices entre

crochets designent les matrices partitionnees caracterisees par l’element ypea l’interieur du crochet, l’estimateur 3SLS δ se met sous la forme compacte

δ =[σijZi

>PXZj

]−1

[g∑

j=1

σijZi>PXyj

]. (18.64)

Page 36: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 657

L’ecriture de l’estimateur 3SLS dans une notation qui utilise les produits deKronecker est plus frequente; consulter la plupart des ouvrages d’econometrie.Bien que les produits de Kronecker soient bien souvent tres utiles (Magnus etNeudecker, (1988)), nous preferons la notation compacte de (18.64).

L’estimateur 3SLS est intimement relie a la fois a celui des 2SLS et acelui des GLS pour les modeles SUR multivaries pour lequel les variablesexplicatives sont toutes exogenes ou predeterminees. Si nous supposons que Σest proportionnelle a une matrice identite, les conditions (18.63) se ramenenta

σiiZi>PX

(yi −Ziδi

)= 0,

et ces conditions sont equivalentes aux conditions equation par equationdes 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pasnumeriquement) equivalents lorsque les aleas contemporains de la forme struc-turelle sont non correles. Il est egalement aise de voir que l’estimateur SURpour les modeles lineaires est juste un cas particulier de l’estimateur 3SLS.Etant donne que tous les regresseurs peuvent servir en tant qu’instrumentsdans le cas SUR, il n’est plus du tout besoin d’employer les 2SLS en premiereetape. En correspondance, le fait que chaque matrice de regresseur Zi soitune sous-matrice de la matrice de tous les regresseurs, X, implique quePXZi = Zi. Ainsi (18.63) se ramene a

g∑

j=1

σijZi>(yj −Zjδj

)= 0,

et c’est precisement ce que deviennent les equations definissantes (9.54) dansle cas lineaire pour l’estimateur des GLS faisables d’un systeme SUR sanscontrainte d’equations croisees. Nous voyons que la relation entre 3SLS et les2SLS equation par equation est identique a celle qu’il existe entre l’estimationSUR par GLS faisables et l’estimation OLS equation par equation.

Sur la base de (18.64), il est naturel de penser que l’estimation de lamatrice de covariance de l’estimateur 3SLS peut etre estimee par

[σijZi>PXZj ]−1. (18.65)

C’est en realite le cas, comme on peut le montrer assez facilement a l’aide duresultat general (17.55) pous l’estimation GMM. Nous avons vu que pour Φ−1

dans cette expression nous devions employer la matrice dont l’element typeest σij(X>X)−1. Pour D, la matrice des derivees des moments empiriquespar rapport aux parametres du modele, nous voyons que la matrice adequatedoit etre bloc diagonale, avec des blocs types definis par −X>Zi. (Nous neconsiderons pas volontairement les facteurs des puissances de n.) Puisquenous traitons d’un systeme lineaire, D ne depend d’aucun parametre estime.Ainsi une estimation appropriee de la matrice de covariance asymptotique estdonnee par l’inverse de la matrice dont le bloc type est

Zi>X σij

(X>X

)−1X>Zj = σijZi

>PXZj ,

Page 37: Ch18 Modèles d'équations Simultanées

658 Modeles d’Equations Simultanees

ce qui correspond precisement a (18.65).

Puisque le modele d’equations simultanees (18.01) est equivalent a laforme reduite contrainte (18.02), on peut raisonnablement se demander pour-quoi un estimateur tel que celui des 3SLS ne peut pas etre obtenu simple-ment a partir de (18.02), etant donne que sa forme est precisement celle d’unsusteme SUR. La reponse est, bien sur, que cela est possible. Cependant,a moins que chaque equation ne soit juste identifiee, les contraintes serontnon lineaires. Cette approche a ete essentiellement utilisee par Chamberlain(1984). L’avantage de l’approche que nous suivons est qu’elle evite les diffi-cultes associees au traitement des contraintes non lineaires.

Une autre similitude entre les estimations 3SLS et SUR est que les deuxsont numeriquement equivalentes a la procedure equation par equation sichaque equation est juste identifiee. Pour les systemes SUR, cela signifiesimplement que tous les regresseurs se confondent avec des variables explica-tives dans chaque equation (sinon, il existerait des contraintes de suridentifi-cation impliquees par la necessaire orthogonalite entre les aleas des equationsou certains regresseurs sont absents et les regresseurs absents et inclus dansl’equation). Nous avons vu dans la Section 9.8, a travers le Theoreme deKruskal, que les estimations SUR sont numeriquement idetniques aux estima-tions OLS equation par equation dans ce cas. C’est un bon exercice que demontrer la validite du meme resultat dans le contexte 3SLS.

Si nous supposons que les aleas contenus dans la matrice U de (18.01) sontnormalement distribues, les proprietes asymptotiques de toutes les proceduresd’estimation ML garantissent l’efficacite asymptotique de l’estimateur FIML.Il est par consequent naturel de se demander si l’estimateur 3SLS partage lapropriete asymptotique d’efficacite avec le FIML, et la reponse est, commenous le verrons assez directement, affirmative. Nous pourrions directementobtenir une demonstration de ce resultat si nous avions une expression de lamatrice de covariance asymptotique de l’estimateur FIML, que nous pour-rions comparer a (18.65). Toutefois, nous preferions ne pas obtenir une telleexpression dans la Section 18.4, parce qu’un moyen tres simple d’obtenir uneestimation de la matrice de covariance FIML consiste a utiliser l’estimation3SLS (18.65), evaluee avec les estimations FIML. Au lieu de cela, notredemonstration de l’equivalence asymptotique entre les 3SLS et le FIML sebase sur le fait que l’estimateur FIML peut s’interpreter comme un estima-teur des variables instrumentales.

Ce resultat, que Hausman (1975) demontra le premier, est d’un interetconsiderable en lui-meme, du fait qu’il fournit des instruments optimaux as-socies a l’estimation ML du systeme (18.01). Comme nous pouvions nous yattendre, on peut les trouver en considerant les conditions du premier ordrepour la maximisation de la fonction de log-vraisemblance, que nous envis-ageons sous la forme (18.28). Si nous notons Γi ou Bi la colonne i de Γ ouB, respectivement, et notons une fois de plus σij l’element type de Σ−1, alors

Page 38: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 659

(18.28) peut s’exprimer comme

`(B, Γ, Σ) = − ng−−2

log(2π) + n log |detΓ | − n−2

log |Σ|

− 1−2

n∑t=1

g∑

i=1

g∑

j=1

σij(YtΓi −XtBi

)(YtΓj −XtBj

).

(18.66)

La difficulte majeure dans l’explicitation des conditions du premier ordre pourun maximum de (18.66) est que B et Γ sont contraintes a posseder de nom-breux elements nuls de sorte qu’un seul element de Γ est egal a 1. Parconsequent, nous ne pourrions annuler les derivees de (18.66) par rapport aaux elements de Γ et B qui sont ainsi contraints. Pour contourner la difficulte,nous pouvons tout d’abord developper une matrice des derivees partielles de`(B, Γ, Σ) par rapport a B qui aura exactement la meme forme que la ma-trice B. Nous signifions que l’element ij de la matrice des derivees partiellessera egal a la derivee partielle de ` par rapport a l’element ij de la matrice B.Nous pouvons executer une operation similaire pour Γ et annuler uniquementles elements pertinents des deux matrices de derivees.

La matrice B n’apparıt que dans le dernier terme de (18.66), aussipouvons-nous nous focaliser uniquement sur ce terme pour l’instant. Il estcommode de calculer la matrice des derivees partielles element par elementet d’ordonner ces derivees par la suite dans une matrice de dimension k × g.Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaquederivee est aisement calculable. Par rapport a l’element ij, nous obtenons

n∑t=1

g∑m=1

σimXtj

(YtΓm −XtBm

). (18.67)

Nous souhaitons trouver une matrice dont l’element ij est (18.67). Puisque jest l’indice associe a l’element Xtj , nous pouvons developper la colonne j deladite matrice en ordonnant les elements Xtj en colonne. Cela donne

n∑t=1

g∑m=1

σimXt>(YtΓm −XtBm

)

=g∑

m=1

σimX>(YΓm −XBm

)

= X>(YΓ −XB)(Σ−1)i, (18.68)

ou (Σ−1)i est la i ieme colonne de Σ−1. Observons maintenant que les ex-pressions successives dans (18.68) sont des vecteurs de dimension k. Pourconclure cette manipulation, il nous faut concatener ces vecteurs pour formerune matrice de dimension k× g, et il est desormais evident que cette matriceest X>(YΓ −XB)Σ−1.

Page 39: Ch18 Modèles d'équations Simultanées

660 Modeles d’Equations Simultanees

Il nous faut maintenant calculer les derivees (18.66) par rapport a lamatrice de dimension g × g Γ. Des operations identiques a celles meneespour B montrent que la matrice des derivees par rapport au dernier terme de(18.66) est

−Y>(YΓ −XB)Σ−1.

Cette matrice est de dimension g × g, ce qui est coherent. Mais Γ ap-paraıt egalement a travers son determinant dans le second terme de (18.66).Souvenons-nous (ou bien consultons l’Annexe A) que la derive du logarithmedu determinant d’une matrice par rapport a l’element ij de cette matrice estl’element ji de l’inverse de la matrice. Par consequent, la matrice des deriveespartielles correspondant a Γ est

n(Γ−1)>− Y>(YΓ −XB)Σ−1. (18.69)

Nous pouvons aboutir a une expression plus pratique que (18.69) en util-isant les conditions du premier ordre pour les elements de la matrice de co-variance Σ. De (18.29), nous voyons que ces conditions donnent

Σ = n−1(YΓ −XB)>(YΓ −XB), (18.70)

ou Σ, Γ, et B designent des estimations FIML. Si nous premultiplions cetteequation par nΣ−1, la postmultiplions par Γ−1, et la transposons, nous ar-rivons a

n(Γ−1)>= Y>(YΓ −XB)Σ−1 − (Γ−1)>B>X>(YΓ −XB)Σ−1. (18.71)

Puisque XBΓ−1 est la matrice des valeurs ajustees de l’estimation de la formereduite contrainte, nous la noterons Y : cela simplifiera la notation et aura lemerite de clarifier l’analyse ulterieure. Ainsi (18.71) peut s’ecrire

n(Γ−1)>= Y>(YΓ −XB)Σ−1 − Y>(YΓ −XB)Σ−1.

Par suite, la matrice (18.69), evaluee avec les estimations ML, devient

−Y>(YΓ −XB)Σ−1.

Nous pouvons, apres tant d’efforts, selectionner les elements de deuxmatrices de derivees partielles qui sont veritablement nuls lorsque nous lesevaluons avec les estimations ML. Les parametres qui apparaissent dansl’equation i proviennent de la colonne i des matrices Γ et B, et les deriveespartielles correspondantes proviennent des colonnes i des matrices de deriveespartielles. En ce qui concerne la matrice B, cette colonne est X>(YΓ −XB)(Σ−1)i. Nous souhaitons selectionner dans cette colonne uniquementles lignes pour lesquelles l’element correspondant de Bi est non contraint,

Page 40: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 661

c’est-a-dire les elements correspondant a la matrice de dimension n × ki Xi.Puisque pour selectionner les lignes d’un produit matriciel, il nous suffit deselectionner les lignes correspondant au facteur le plus a gauche, les elementsnuls sont ceux du vecteur de dimension ki Xi

>(YΓ −XB)(Σ−1)i.Par un rasionnement en tous points identique, nous trouvons que, pour

chaque i = 1, . . . , g, le vecteur Yi>(YΓ −XB)(Σ−1)i de dimension gi est nul,

ou Yi ne contient que les colonnes de Y qui correspondent a la matrice Yi

des variables endogenes incluses en tant que regresseurs dans l’equation i. Sinous definissons Zi ≡ [Xi Yi], alors nous pouvons ecrire toutes les conditionsdu premier ordre correspondant aux parametres de la i ieme equation sous laforme

Zi>(YΓ −XB

)(Σ−1)i = 0.

Ces conditions peuvent se simplifier grandement. Remarquons que

(YΓ −XB)(Σ−1)i =g∑

j=1

σij(YΓj −XBj

)

=g∑

j=1

σij(yj −Zj δj

).

L’ensemble complet des conditions du premier ordre definissant les estimationsFIML peuvent donc s’ecrire

g∑

j=1

σijZi>(yj −Zj δj

)= 0, pour i = 1, . . . , g. (18.72)

Les conditions (18.72) apparaissent desormais sous une forme tres com-parables a celle des conditions (18.63) qui definissent l’estimateur 3SLS. Enrealite, si nous notons Yi la matrice de dimension n× gi des valeurs ajusteesde la forme reduite libre, de sorte que Yi = PXYi for i = 1, . . . , g, alors

PXZi = PX

[Xi Yi

]=

[Xi Yi

] ≡ Zi.

Ainsi la conditions (18.63) qui definit l’estimateur 3SLS peut s’ecrire comme

g∑

j=1

σijZi>(yj −Zj δj

)= 0. (18.73)

Les differences existant entre les conditions qui definissent les etsimations3SLS et celles qui definissent les estimations FIML sont mises en evidence apartir de (18.73) et (18.72). Elles sont les suivantes:(i) l’estimation de la matrice de covariance provient des residus 2SLS equa-

tion par equation en ce qui concerne les 3SLS, et des residus FIML en cequi concerne le FIML;

Page 41: Ch18 Modèles d'équations Simultanées

662 Modeles d’Equations Simultanees

(ii) Les valeurs ajustees de Y employees en tant qu’instruments sont cellesde la forme reduite non contrainte en ce qui concerne les 3SLS et celle duFIML en ce qui concerne le FIML.

Les deux differences refletent le fait que, contrairement aux 3SLS, le FIMLest une procedure d’estimation jointe: il faut resoudre simultanement les con-ditions (18.72) et les conditions (18.70) pour Σ si l’on veut obtenir une quel-conque estimation ML.

Une autre facon d’etablir la difference entre les deux procedures consistea dire qu’elles emploient des estimations differentes des memes instrumentsoptimaux. Ces instruments sont quelque peu delicats a ecrire. Afin de le fairesans trop de difficulte, nous pouvons construire un vecteur de dimension ngconstitue de toutes les contributions des moments empiriques. Sous formepartitionnee, ce vecteur peut s’ecrire

[y1 −Z1δ1

.... · · · .... yg −Zgδg

], (18.74)

et un element type est n--vector yi − Ziδi. Au total, il faut identifier p ≡∑gi=1(gi + ki) parametres, de sorte qu’il faut premultiplier le vecteur (18.74)

par exactement le nombre de vecteurs lignes, chacun etant de dimesnion ng,si l’on veut obtenir les equations definissantes pour ces estimations. On peutvoir sans grande difficulte que la matrice de dimension p × ng necessaire al’obtention de (18.72) ou de (18.73) est constituee de blocs de la forme σijWi

>,ou Wi indique une matrice de la forme [XΠi Xi] pour un choix donne desmatrices Πi de dimension n× gi. Ce bloc type est une matrice de dimension(gi + ki)× n, ce qui est coherent.

Les estimateurs 3SLS et FIML different selon la maniere de choisir Σ etles matrices Πi. Les instruments optimaux reel, mais non observables, sontdonnes en posant Σ egale a la veritable matrice de covariance des erreurs Σ0

et en posant Πi = B0Γ−10 , a l’aide des veritables matrices de parametres. A

l’evidence, aussi bien Σ que Σ convergent vers Σ0. Identiquement, les ma-trices Π telle que Y = PXY = XΠ obtenue de la forme reduite contrainteque la matrice BΓ−1 obtenue par l’estimation FIML convergent vers B0Γ

−10 .

Les deux procedures emploient par consequent des estimations convergentesdes veritables instruments optimaux, de sorte que les deux sont asympto-tiquement equivalentes et asymptotiquement efficaces. Remarquons que cetteconclusion ne s’applique qu’a l’estimation de Γ et B: les procedures ne sontpas equivalentes en ce qui concerne l’estimation de la matrice de covariance Σ.

On peut obtenir l’equivalence numerique entre le FIML et les 3SLS eniterant ces derniers. A chaque iteration, les residus de la precedente etapesont utilises pour generer les estimations actualisees de Σ, alors que les es-timations parametriques de la precedente etape sont utilisees pour genererles estimations actualisees de Π. Une telle procedure iterative, dont l’interetreste surtout theorique, debute par les 3SLS et converge vers le FIML pourtous les parametres, incluant ceux de Σ. Cette operation iterative, et de nom-breuses autres, sont abordees par Hendry (1976), qui fournit egalement une

Page 42: Ch18 Modèles d'équations Simultanées

18.6 Les Triples Moindres Carres 663

bibliographie exhaustive de la plupart des themes de la litterature consacreeaux equations simultanees existant a cette epoque.

Comme nous l’avons suggere lors de la Section 18.4, un moyen pratiquede calculer une estimations de la matrice de covariance de l’estimateur FIMLde Γ et B consiste a employer une expression comparable a (18.65). Si nousremplacons l’estimation 3SLS Σ par l’estimation FIML Σ, et les matricesPXZi des 3SLS par les matrices Zi du FIML, le resultat est

[σijZi

>Zj

]−1.

De meme que le LIML applique a une equation est un cas degenere duFIML applique a ladite equation suridentifiee, les 2SLS sont un cas degeneredes 3SLS applique a une equation suridentifiee unique d’un systeme globalpar ailleurs juste idetnifie. Ce resultat est d’une grande importance pratique,bien que la demonstration ne soit guere interessante, et donc eludee. Leresultat implique que la raison invoquee dans la Section 18.5 qui nous conduitparfois a preferer le LIML au FIML, a savoir que cela evite d’imposer descontraintes de suridentification eventuellement inexactes, conduirait chaqueexperimentateur dans un contexte de moindres carres a ne jamais depasserle stade des 2SLS. Compte tenu du fait que le surcroıt de calcul pour obenirles 3SLS par rapport aux 2SLS est considerable si l’on ne s’interesse qu’a uneseule equation, il est fondamental de realiser que ce travail supplementaire neprocure aucun avantage a moins que certaines equations du systeme ne soientsuridentifiees.

Etant donne que les 3SLS sont un cas particulier de l’estimation parGMM, on peut les generaliser pour tenir compte d’une heteroscedasticite deforme inconnue des aleas, chose impossible a realiser avec le FIML. Si nous nedisposons d’aucune information quant a la forme de l’heteroscedasticite, alorsnous ne pouvons pas ameliorer le choix (18.56) des conditions portant surles moments empiriques employee pour l’identification des parametres. Parcontre nous pouvons remplacer l’estimation (18.58) de leur matrice de covar-iance basee sur l’hypothese d’homoscedasticite par une extimation robuste al’ehetroscedasticite. Avec des aleas correles en serie, (18.57) reste une expres-sion correcte pour la matrice de covariance des moments empiriques. Un bloctype de cette matrice est

n∑t=1

E(utiutjXt

>Xt

).

Il est clair que, tout comme pour les autres HCCME, il est possible d’estimerde facon convergente 1/n fois cette matrice par

1−n

n∑t=1

E(utiutjXt

>Xt

),

Page 43: Ch18 Modèles d'équations Simultanées

664 Modeles d’Equations Simultanees

que l’on peut ecrire plus simplement sous la forme

1−nX>ΩijX (18.75)

si l’on pose la definition Ωij = diag(utiutj), pour i, j = 1, . . . , g. Si nousemployons cette expression pour elaborer une fonction critere basee sur lesconditions portant sur les moments empiriques (18.56), nous aboutissons a unnouvel estimateur, defini par les equations

g∑

j=1

Zi>X

(X>ΩijX

)−1X>(yj −Zjδj

)= 0.

La resolution de ces equations nous conduit a l’estimateur

δ =[Zi>X

(X>ΩijX

)−1X>Zj

]−1

[g∑

j=1

Zi>X

(X>ΩijX

)−1X>yj

]. (18.76)

Il n’est pas surprenant de retrouver en (18.76) une structure tres ompara-ble a celle de l’estimateur H2SLS (17.44), aussi l’appellerons-nous estimateurH3SLS. On peut estimer sa matrice de covariance asymptotique par l’inversede la matrice avec le bloc type

Zi>X

(X>ΩijX

)−1X>Zj .

En presence d’heteroscedasticite de forme inconnue, l’estimateur H3SLS de-vrait etre plus efficace, asymptotiquement que celui des 3SLS ou du FIML.Malgre tout, ses performances avec des echantillons finis sont pratiquementinconnus a ce jour.

Il est evident que nous pourrions generaliser l’estimateur H3SLS en-core davantage a l’aide d’un estimateur HAC de la matrice de covariancea la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,Chapitre 6). Cependant, c’est une strategie adequate tant que la presencede correlation en serie reste compatible avec le modele correctement specifieet que la taille d’echantillon est relativement importante. Pour la plupart desapplications sur donnees chronologiques, le FIML ou les 3SLS restent les esti-mateurs systemiques preferes, du fait que l’heteroscedasticite sera largementabsente, alors que la correlation en serie largement repandue si le modele estmal specifie. Quoi qu’il en soit, lorsque la taille de l’echantillon est importanteet que l’heteroscedasticite se manifeste fortement, comme c’est le cas avec denombreuses applications sur donnees en coupe transversale, il est fort prob-able que l’estimateur H3SLS soit l’estimateur sysmetique le plus approprie.

Page 44: Ch18 Modèles d'équations Simultanées

18.7 Modeles d’Equations Simultanees Non Lineaires 665

18.7 Modeles d’Equations Simultanees Non Lineaires

A ce stade de l’expose, nous avons tres peu parle des modeles d’equationssimultanees non lineaires. Un modele d’equations simultanees peut etre nonlineaire de trois manieres possibles. Pour la premiere, Yt peut dependrede fonctions non lienaires de quelques variables exogenes ou predeterminees.Comme d’habitude, ce type de non linearite n’engendre pas de probleme etpeut etre gere de facon simple en redefinissant Xt. Pour la deuxieme, cer-tains parametres peuvent agir de maniere non lineaire dans le modele struc-turel pour Yt, sans doute parce qu’ils sont soumis a des contraintes nonlineaires. C’est le genre de non linearite que nous avons traite frequemmentavec l’estimation de modeles de regression non lienaire, et elle ne cause pasde probleme supplementaire dans le contexte des modeles d’equations simul-tanees. Enfin, pour la troisieme, il peut exister des non linearites provoqueespar les variables endogenes. Ce type de non linearite ne pose pas non plus deprobleme serieux supplementaire.

Le probleme avec les modeles qui sont non lineaires du fait des variablesendogenes est que pour de tels modeles il n’existe aucun equivalent a la formereduite non contrainte d’un modele d’equations simultanees lineaire. Il esthabituellement difficile voire impossible d’obtenir les variables endogenes enfonction de svariables exogenes et des aleas. Meme lorsque cela est possible,Yt dependra presque toujours de facon non lienaire a la fois des exogenes etdes aleas. Soit, par exemple, le modele simple a deux equations

y1 = αy2 + X1β1 + u1

y2 = γ1y1 + γ2y21 + X2β2 + u2,

(18.77)

ou la notation reste conventionnelle et ou l’indice t a ete supprime pour nepas surcharger les expressions Si nous subsituons le membre de droite de lapremiere equation de (18.77) dans la seconde, nous obtenons

y2 = γ1

(αy2 + X1β1 + u1

)+ γ2

(αy2 + X1β1 + u1

)2 + X2β2 + u2.

Puisque cette equation est une forme quadratique en y2, elle possederahabituellement deux solutions. Selon les valeurs parametriques et les valeursdes Xi et des ui, les deux solutions peuvent etre reelles ou pas. Meme s’ilexiste une solution reelle, elle ne sera generalement pas lineaire en les variablesexogenes. Par consequent, le simple usage des composantes de X1 et de X2

en tant qu’instruments ne sera pas optimal.

Cet exemple illustre la nature des problemes que l’on peut rencontreravec tout modele d’equations simultanees qui n’est pas lineaire en les variablesendogenes. Nous sommes au moins confrontes a un probleme de choix des in-struments. Une approche, discutee dans la Section 7.6, consiste a employerdes puissances et meme des produits croises des des variables exogenes en

Page 45: Ch18 Modèles d'équations Simultanées

666 Modeles d’Equations Simultanees

tant qu’instruments, en meme temps que les variables exogenes elles-memes.Si la taille de l’echantillon est suffisamment importante, cette approche estjudicieuse, mais dans de nombreux cas il sera difficile de determiner le nom-bre d’instruments a employer, et meme de savoir lesquels employer. L’ajoutd’instruments ameliorera generalement l’efficacite asymptotique mais tendraegalement a accroıtre le biais avec des echantillons finis. Plus serieusement,il est fort possible d’estimer un modele qui ne peut pas etre resolu pour desvaleurs tout a fait raisonables des variables exogenes et des aleas. Ainsi ilfaudrait probablement eviter d’employer des modeles qui sont non lineairesen les variables endogenes, si cela est possible.

Il semble que le LIML ne soit pas une procedure viable pour l’estimationde modeles d’equations simultanees non lienaires. La procedure LIML clas-sique discutee dans la Section 18.5 est concue exclusivement pour les modeleslineaires. On peut imaginer obtenir des estimations LIML d’une equationstructurelle non lineaire en employant un programme pour le FIML nonlineaire applique a un systeme constitue d’une seule equation structurelle etde g − 1 equations lineaires sous forme reduite. Cela ne serait coherent quesi les equations sous forme reduite etaient en fait lineaires, ce qui ne serapresque jamais le cas. Ainsi, pour l’estimation d’equations isolees, les seulesprocedures adequates sont celles basees sur les variables instrumentales.

Nous avons discute de l’estimation de modeles non lineaires constituesd’une seule equation par les methodes IV dans la Section 7.6, et il reste seule-ment quelques complements a livrer sur ce sujet. Supposons que l’equationstructurelle qui nous interesse puisse s’ecrire

y = x(δ) + u,

ou δ est un vecteur compose de l parametres, et le vecteur de fonctions nonlineaires x(δ) depend implicitement d’au moins une variable endogene et d’uncertain nombre de variables exogenes et predeterminees. Alors si W designeune matrice d’instruments de dimension n × m, nous avons vu que les esti-mations IV peuvent etre calculees en minimisant la fonction critere

(y − x(δ)

)>PW

(y − x(δ)

). (18.78)

Les estimations qui en resultent sont souvent nommees moindres carres nonlineaires en deux etapes ou estimations NL2SLS, si l’on se refere a la termi-nologie d’Amemiya (1974), bien que ces estimations ne soient pas obtenues endeux etapes. Nous avons vu ce detail dans la Section 7.6.

La fonction critere (18.78) peut se deriver comme une procedure GMMen debutant par les conditions portant sur les moments

E(W>(y − x(δ)

))= 0

et en supposant que E(uu>) = σ2I. Cette hypothese peut se reveler parfoistrop contraignante. Si elle etait correcte, la minimisation de (18.78) produirait

Page 46: Ch18 Modèles d'équations Simultanées

18.7 Modeles d’Equations Simultanees Non Lineaires 667

des estimations non efficaces et une estimation non convergentes de la matricede covariance des parametres estimes. Une hypothese plus souple est queE(uu>) = ∆, ou ∆ est une matrice diagonale dont les elements diagonauxsont inconnus (mais finis). Nous pouvons obtenir des estimations analoguesaux estimations H2SLS de la Section 17.3 a l’aide d’une procedure en deuxetapes. Dans la premiere etape, nous minimisons (18.78), de maniere a obtenirdes estimations parametriques convergentes mais non efficaces et des residusut, et nous utilisons ces derniers pour construire la matrice W>∆W, ou ∆ acomme element type u2

t . Dans la seconde etape, nous minimisons la fonctioncritere (

y − x(δ))>W

(W>∆W

)−1W>(y − x(δ)

).

Comme d’habitude, nous pourrions abandonner l’hypothese de diagonalite de∆ et employer un estimateur HAC, si cela s’averait utile (voir les remarquesa la fin de la section precedente).

L’estimation systemique des modeles d’equations simultanees non line-aires releve typiquement d’une sorte de procedure IV (ou GMM) ou FIML.Nous discuterons brievement de ces deux approches a tour de role. Supposonsque la i ieme equation du systeme puisse s’ecrire pour toutes les observationssous la forme

fi(Y , X, θ) = ui, (18.79)

ou fi(·) est un vecteur de dimension n de fonctions non lineaires, ui est unvecteur de dimension n d’aleas, et ou θ est un vecteur de dimension p deparametres qu’il s’agit d’estimer. En general, toutes les variables endogeneset exogenes et tous les parametres peuvent apparaıtre dans n’importe quelleequation, compte tenu des contraintes quelconques que l’on peut vouloir leurimposer pour identifier le systeme.

La premiere etape dans toute procedure IV consiste a choisir les instru-ments que l’on va utiliser. Si le modele est non lineaire seulement en lesparametres, la matrice des instruments optimaux est X. Cependant, commenous l’avons vu, il n’existe pas de moyen simple de choisir les instruments pourles modeles qui sont non lineaires en une ou plusieurs variables endogenes. Latheorie de la Section 17.4 peut s’appliquer, bien entendu, mais le resultatqu’elle entraıne n’est pas d’un grand interet pratique. Il apparaıt que sous leshypotheses habituelles sur les termes d’erreur, a savoir leur homoscedasticiteet leur independance en serie mais pas entre les equations, la matrice desinstruments W sera optimale si S(W ) correspond a l’union des sous-espacesengendres par les colonnes de E(∂fi/∂θ). Ce resultat est du a Amemiya(1977). Il reste pertinent mais generalement, il n’est pas utile dans la pra-tique. Pour l’instant, nous supposons simplement qu’une certaine matriced’instruments W de dimension n×m est disponible, avec m ≥ p.

Une procedure IV non lineaire pour l’estimation systemique, compara-ble dans l’esprit a la procedure equation par equation des NL2SLS basee surla minimisation de (18.78), fut proposee a l’origine par Jorgenson et Laf-font (1974) et fut nommee moindres carres en trois etapes, ou NL3SLS.

Page 47: Ch18 Modèles d'équations Simultanées

668 Modeles d’Equations Simultanees

L’appellation est quelque peu trompeuse, pour une raison identique a cellequi fait que le nomu “NL2SLS” est egalement trompeuse. Par analogie avec(18.60), la fonction critere que nous voudrions reellement minimiser est

g∑

i=1

g∑

j=1

σijfi>(Y ,X, θ)PW fj(Y , X,θ). (18.80)

Quoi qu’il en soit, dans la pratique, les elements σij de l’inverse de la matricede covariance contemporaine Σ ne seront pas connus et il nous faudra lesestimer. Plusieurs possibilites s’offrent a nous. On peut tout d’abord employerles NL2SLS pour chaque equation separement. Cela sera traditionnellementplus aise, mais pas toujours possible si certains parametres ne sont identifiesque grace a des contraintes d’equations croisees. Une autre approche quifonctionnera dans ce cas consiste a minimiser la fonction critere

g∑

i=1

g∑

j=1

fi>(Y ,X, θ)PW fj(Y , X, θ), (18.81)

pour laquelle la matrice de covariance Σ est remplacee par la matrice identite.La minimisation de (18.81) conduira a un estimateur qui sera a l’evidence unestimateur GMM valable, et par consequent convergent meme s’il n’est pasefficace. Quel que soit l’estimateur non efficace utilise a l’etape initiale, il pro-duira g vecteur de residus ui a partir desquels on peut estimer de facon con-vergente la matrice Σ, exactement de la meme maniere que pour les modeleslineaires; voir (18.62). On obtient alors la fonction critere

g∑

i=1

g∑

j=1

σijfi>(Y ,X, θ)PW fj(Y , X,θ), (18.82)

en remplacant les σij inconnus dans (18.80) par les elements σij de l’inverse del’estimation de Σ. Cette fonction critere peut veritablement etre minimiseedans la pratique.

Comme d’habitude, la valeur minimisee de la fonction critere (18.82)fournit une statistique de test pour les contraintes de suridentification; voirles Sections 7.8 et 17.6. Si le modele et les instruments sont correctementspecifies, cette statistique de test sera asymptotiquement distribuee suivantune χ2(m − p); souvenons-nous que les instruments sont au nombre de m etque les parametres libres sont au nombre de p. De plus, si le modele est estimesans contrainte puis sous r contraintes distinctes, la difference entre les deuxvaleurs des fonctions criteres aura une distributions asymptotique du χ2(r).Si cette derniere statistique de test doit etre utilisee, il est fondamental que lameme estimation de Σ soit emplyee dans les deux estimations, car autrementla statistique de test peut meme ne pas etre positive avec des echantillonsfinis.

Page 48: Ch18 Modèles d'équations Simultanées

18.7 Modeles d’Equations Simultanees Non Lineaires 669

Lorsdque la taille de l’echantillon est importante, il est peut etre plusfacile d’obtenir des estimations efficaces en une etape plutot que de minimiser(18.82). Supposons que l’on note θ les estimations efficaces initiales, qui peu-vent etre soit des estimations NL2SLS soit des estimations systemiques baseessur (18.81). Un developpement en serie de Taylor de fi(θ) ≡ fi(Y , X,θ) au-tour de θ est

fi(θ) + Fi(θ)(θ − θ),

ou Fi est une matrice de dimension n × p des derivees de fi(θ) par rap-port aux p elements de θ. Si quelques parametres n’apparaissent pas dansl’equation i, les colonnes correspondantes de Fi seront identiquement nulles.Les estimations en une etape, qui seront asymptotiquement equvalentes auxestimations NL3SLS, sont simplement θ = θ − t, ou t designe le vecteur desestimations 3SLS lineaires

t =[σijFi

>PW Fj

]−1

[g∑

j=1

σijFi>PW fj

]. (18.83)

Cette expression doit etre comparee a (18.64).Il est clair que l’on peut generaliser les NL3SLS pour gerer une heterosce-

dasticite de forme inconnue, une correlation serielle de forme inconnue, ou lesdeux simultanement. Par exemple, afin de tenir compte d’une heteroscedasti-cite, nous remplacerions simplement la matrice PW dans (18.82) et (18.83)par la matrice

W(W>ΩijW

)−1W>,

ou, par analmogie avec (18.76), Ωij = diag(utiutj) pour i, j = 1, . . . , g. Lesestimations initiales θ peuvent ne pas tenir compte de l’heteroscedasticite.pour une discussion plus detaillee sur cette sorte de procedure, et de NL3SLSen general, consulter Gallant (1987, Chapitre 6).

L’autre methode d’estimation systemique qui est largement employee estcelle du FIML non lineaire. Pour l’examiner, il est judicieux d’ecrire le systemed’equations a estimer non pas sous la forme (18.79) mais plutot sous la forme

ht(Yt,Xt,θ) = Ut, Ut ∼ NID(0, Σ), (18.84)

ou θ demeure un vecteur de p parametres, ht un vecteur de dimension 1× gde fonctions non lineaires, et Ut un vecteur de dimension 1 × g de termesd’erreur. Pour admettre que (18.79) et (18.84) sont de formes comparables ilsuffit d’imaginer que le i ieme element de ht(·) est identique au t ieme elementde fi(·).

La densite du vecteur Ut est

(2π)−g/2|Σ|−1/2 exp(− 1−

2UtΣ

−1Ut>).

Page 49: Ch18 Modèles d'équations Simultanées

670 Modeles d’Equations Simultanees

Pour se ramener a la densite de Yt, nous devons remplacer Ut par ht(Yt, Xt, θ)et multiplier par le terme jacobien |det Jt|, ou Jt ≡ ∂ht(θ)/∂Yt, c’est-a-direla matrice de dimension g× g des derivees de ht par rapport aux elements deYt. La resultat est

(2π)−g/2|detJt||Σ|−1/2 exp(− 1−

2ht(Yt,Xt, θ)Σ−1ht

>(Yt, Xt,θ)).

Il s’ensuit immediatement que la fonction de logvraisemblance est

`(θ,Σ) = − ng−−2

log(2π) +n∑

t=1

log |detJt| − n−2

log |Σ|

− 1−2

n∑t=1

ht(Yt, Xt, θ)Σ−1ht>(Yt, Xt, θ).

(18.85)

Cette expression peut etre maximisee par rapport a Σ et le resultat injectepour mener a l fonction de logvraisemblance concentree

`c(θ) = − ng−−2

(log(2π) + 1

)+

n∑t=1

log |det Jt|

− n−2

log∣∣∣ 1−n

n∑t=1

ht>(Yt, Xt,θ)ht(Yt, Xt, θ)

∣∣∣.(18.86)

De toute evidence, il existe une forte ressemblance entre (18.85) et (18.86) etleurs contreparties (18.28) et (18.30) pour le cas lineaire. La difference ma-jeure est que le terme jacobien dans (18.85) et (18.86) correspond a la sommedes logarithmes de n determinants differents. Ainsi a chaque evaluation de cesfonctions de logvraisemblance, il faut calculer n determinants differents. Celapeut s’averer couteux lorsque g ou n est important. Bien sur, le problemedisparaıt si le modele est lineaire n les variables endogenes, puisqu’alors Jt

sera constant.Une difficulte avec le FIML non lineaire est que l’on ne sait pas trop

bien comment tester les contraintes de suridentification, ni meme a quoi ellespeuvent ressembler dans de nombreux cas. Dans le contexte d’un modeled’equations simultanees lineaire, toute forme structurelle impose des con-traintes non lineaires a la forme reduite non contrainte, et un test LR permetde tester simplement ces contraintes. Cependant, dans le cas d’un modeled’equations simultanees non lineaire en les variables endogenes, nous ne pou-vons en general pas meme ecrire la FRL, let alone estimate it. On peuttoujours tester n’importe quelle contrainte a l’aide des tests classiques, qu’ils’agisse de contraintes d’equations croisees ou de contraintes portant sur uneequation isolee. Mais il sera en general impossible de tester toutes les con-traintes de suridentification en meme temps. Il existe un probleme connexe

Page 50: Ch18 Modèles d'équations Simultanées

18.8 Conclusion 671

avec l’estimation NL3SLS, bien sur. Bien que la valeur minimisee de la fonc-tion critere (18.82) fournisse une statistique de test, elle ne sera valable quepour les contraintes de suridentification associees a une matrice d’instrumentsparticuliere W, qui peut parfaitement ne pas procurer une approximation sat-isfaisante a la veritable forme reduite non contrainte, qui est inconnue.

La relation entre le FIML non lineaire et les NL3SLS n’est pas de na-ture comparable a celle qui existe entre le FIML lineaire et les 3SLS. Lesdeux methodes non lineaires seront asymptotiquement equivalentes lorsque lemodele est lineaire en les variables endogenes. Toutefois, dans la majorite dessituations, elles ne le seront pas. Dans l’eventualite d’une non equivalence,le FIML non lineaire sera plus efficace, asymptotiquement, que les NL3SLS.Mais cette plus grande efficacite se paye. Lorsque le FIML non lineaire et lesNL3SLS ne sont pas equivalents, le premier peut etre non convergent si lesaleas sont en realite distribues autrement que suivant la loi normale multi-variee. Au contraire, comme nous l’avons vu, l’hypothese de normalite n’estpas necessaire pour assurer la convergence du FIML lineaire. Pour plus dedetails sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plusexplicites du FIML non lineaire que le notre.

Il existe une litterature veritablement vaste sur le calcul des estuiimationspar le FIML non lineaire. Comme d’habitude, on peut employer de nom-breux algorithmes differents pour maximiser la fonction de logvraisemblanceet la fonction de logvraisemblance concentree, dont certains exploitent des car-acteristiques speciales des classes particulieres de modeles. Le references clas-siques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).

18.8 Conclusion

Le fait que nous traitions un theme aussi important que les modeles d’equa-tions simultanees aussi tard peut heurter certains lecteurs. Nous avons bienevidemment aborde certains aspects du probleme dans le Chapitre 7, en tantque contribution a notre traitement des variables instrumentales. La raisonde ce retard volontaire est que nous voulions que le lecteur ait acquis unecomprehension claire de l’estimation et des tests de specification par maximumde vraisemblance et de la methode des moments generalisee. Cela nous a alorspermis de developper toutes les methodes d’estimation et de test discuteesdans ce chapitre en tant qu’applications immediates du ML et de la GMM.Si l’on admet cela, il est beaucoup plus facile de comprendre les modelesd’equations simultanees et les techniques statistiques qui leur sont associees.

Termes et Concepts

Page 51: Ch18 Modèles d'équations Simultanées

672 Modeles d’Equations Simultanees

causalite au sens de Grangercondition d’ordre pour l’identificationcondition de rang pour l’identificationcontraintes d’equation croiseescontraintes de suridentificationdoubles moindres carres non lineaires

(NL2SLS)estimateur de classe Kestimateur du ratio de moindre

varianceestimateur H3SLSexogeneiteexogeneite faibleexogeneite stricteFIML non lineairefonction de logvraisemblance partielleforme reduite contrainte (FRC)forme reduite libre (FRL)maximum de vraisemblance en

information complete (FIML)

maximum de vraisemblance eninformation limitee (LIML)

modeles d’equations simultaneesmodeles d’equations simultanees

lineairemodeles d’equations simultanees non

lineairenon causalite au sens de Grangerparametres de nuisanceparametre d’interetsuper exogeneitesysteme recursiftriples moindres carres (3SLS)triples moindres carres non lineaires

(NL3SLS)variable endogenevariable excluevariable exogenevariable inclusevariable predeterminee