Chap 1 Le Modele Classique de Regression Lineaire Simple2013

download Chap 1 Le Modele Classique de Regression Lineaire Simple2013

of 33

Transcript of Chap 1 Le Modele Classique de Regression Lineaire Simple2013

  • Universit Cadi AyyadFacult des Sciences Juridiques Economiques et SocialesMarrakech

    ECONOMETRIE I

    Polycopi lattention des Etudiants de la Filire Economie et Gestion,Semestre 5 : Option Economie

    Document de Soutien Prpar par les Professeurs Chakib Tahiri etMustapha Kchirid

  • 2Chapitre 1

    Le Modle Classique de Rgression LinaireSimple

    1.1 IntroductionLe terme Economtrie a pour la premire fois t employ en 1926par Ragnar A. K. Frisch, un conomiste Norvgien, qui partagea en1969 avec un autre conomtre Jan Tinbergen, le premier prixNobel en Economie. Bien que beaucoup dconomistes aient utilisdes donnes bien avant 1926, Frisch sentit quil fallait un nouveauterme pour dcrire lutilisation et linterprtation des donnes enconomie.De nos jours, lconomtrie est un vaste domaine dtude lintrieur mme de lconomie. Le domaine change mesure quede nouvelles techniques surgissent, mais le corps de lconomtriecontient un ensemble stable dides et de principes fondamentaux.Le prsent cours dconomtrie tournera autour de ces ides et deces principes fondamentaux.

    Economtrie veut dire Mesure en Economie. Que mesure t-on?La thorie conomique trs souvent met des hypothses de naturequalitative.

  • 3Exemple 1 La thorie Keynsienne de la consommation soutientqu mesure que le revenu des mnages saccrot, leurconsommation saccrot aussi en moyenne. Si on pose C, laconsommation des mnages, et Y le revenu, alors la thorieKeynsienne suppose que 0CY

    Mais la thorie ne nous fournit pas de mesure numrique de cesrelations.L'objet donc de l'conomtrie est de donner un contenu quantitatifaux relations conomiques, de vrifier la validit de telle ou tellethorie et ensuite de faire de la prvision. La mthodologie delconomtrie est donc la suivante :

    Thorie Economique

    Modle Economtrique de la thorie

    Collecte des Donnes

    Estimation

    Infrence

    Rejet ou Accepte Prvision

  • 4Il existe 3 structures de donnes en conomtrie Les donnes Cross-Section consistent en un ensemble

    dindividus, de firmes, de mnages, de rgions ou mme depays pris en un point du temps donn. Ce type de donnesest trs utilis en conomie et sciences sociales, march dutravail, finances publiques, organisation industrielle, conomiespatiale, dmographie, conomie de la sant, etc.

    Les donnes en sries temporelles aussi appeles srieschronologiques consistent en observations temporelles. Le PIB,Les prix, la consommation, les importations, les exportations,la monnaie sont autant de sries temporelles. Il existediffrentes frquences dans les sries temporelles, annuelles,trimestrielles, mensuelles, hebdomadaires, journalire, intra-journalire. Ce type de donnes est trs souvent utilis enmacro-conomie et en finance.

    Les donnes de panel encore appeles donnes longitudinalesconsistent en donnes temporelles pour chaque cross-section.En dautres ternes les donnes de panel sont unecombinaison de donnes Cross-Section et donnes en sriestemporelles. Le terme anglophone pour dsigner les donnesde panel est Cross-section-Time-series c.a.d. unecombinaison de donnes Cross-section et de donnes ensries temporelles.

    Une distinction importante en Economtrie et Statistiques en gnralest la distinction entre population et chantillon.Une population est lensemble du groupe dont on veut tirer uneinformation. A cause des problmes de cots et de temps, lesconomtres travaillent plutt sur des chantillons.

  • 5Un chantillon est un sous-ensemble de la population que lon veutexaminer afin de tirer des informations.Une exprimentation consiste slectionner un chantillon dunepopulation. Les conclusions sur la population sont tires partir denotre chantillon.Exemple 2 On veut connatre le pourcentage dtudiants lafacult de Droit et Sciences Economiques de Marrakech qui litdurant les week-ends. Donc lensemble des tudiants la facultde Droit et Sciences Economiques de Marrakech constitue lapopulation. On slectionne 2000 tudiants de cette population, ces2000 tudiants constituent donc notre chantillon.Le concept fondamental utilis tout au long de l'conomtrie estcelui de rgression:Dfinition Rgression fait rfrence ltude de la dpendanced'une variable sur une autre ou plusieurs autres en vue d'estimeret/ou prdire la moyenne de la population.Avant d'aller plus loin, il convient de prciser la nature des relationsqui existent en Economtrie. En analyse de rgression, noussommes plus intresss aux dpendances statistiques entre variablesquaux dpendances dterministiques ou fonctionnelles.Dpendance statistique veut dire que les variables utilises sont desvariables alatoires (ci- aprs VA) ou des variables stochastiquesi.e. des variables qui possdent des distributions de probabilit.Dpendance dterministique veut dire que les variables utilises sontdes variables simples. En dautres termes une relationdterministique est une relation exacte mathmatiquement. Parexemple on sait que la surface dun rectangle est donne par la

  • 6formuleS l L . Ceci constitue une relation dterministique. Unautre exemple de dpendance dterminative serait la loi de Newton

    1 22

    m mF = k( )r

    O F est la Force, m1 et m2, les masses de deux particules, r ladistance, et k une constante de proportionnalit. Ces types derelations sont des relations exactes c.a.d. que l'on peut toujoursprdire exactement la variable endogne si l'on connat la valeur desvariables droite. Mais si les variables sont mesures parexemple avec erreurs, alors les variables endognes ne seront plusdes variables simples, elles deviennent des VA.Un objectif frquent en recherche est la spcification d'une relationfonctionnelle entre deux variables soit y = f(x).

  • 7Figure 1 montre que pour chaque valeur de X il existe une et uneseule valeur pour Y. Ceci constitue une relation dterministique.Figure 2 montre que la nature stochastique du modle de rgressionimplique que quelque soit la valeur de X, il existe une distributionde probabilit pour les valeurs de Y. Pour chaque valeur de X ilexiste plusieurs valeurs possibles pour Y. Ceci veut dire donc queles valeurs de Y ne peuvent jamais tre prdit exactement.L'incertitude concernant Y vient de la prsence de ut le rsiducomme nous allons le voir dans un instant.

    Considrons par exemple une fonction de production d'une firme etsupposons que y = f(L) o L est le travail et Y loutput. Maisune mme quantit de travail ne conduira pas toujours la mmequantit d'output cause des variations dans le climat, laperformance humaine, la frquence laquelle les machines secassent etc Donc Y dpendra non seulement de L mais aussi

  • 8d'un large nombre de causes alatoires que nous rsumons sousut.1

    Puisque nous n'anticipons pas une relation parfaite, on crira alors( )Y f L u

    1.2 Le Modle Classique de Rgression Linaire1.2.1 Les Hypothses du Modle Classique

    En analyse de rgression, le modle le plus utilis est le modleOLS (Ordinary Least Squares) d Carl Friedrich Gauss. Soit lemodle

    t t tY = + X + u (1.1)

    O tY est appele variable endogne, et tX est appele variableexogne. Endogne veut tout simplement dire que la variable tYest explique par notre modle, et exogne veut dire que lavariable nest pas explique par notre modle. Modle (1.1) tentedexpliquer tY et prend tX comme exogne ou encore variableexplicative, en ce sens que cest tX qui explique tY et nonlinverse. En fait quation (1.1) est dj une hypothse, celle delinarit, c.a.d. que le modle est linaire.

    Gauss fait les hypothses suivantes1. 2u ~ N(0, )t En ralit hypothse 1 constitue deux hypothses que lon acondens en une seule, savoir que1 u mesure notre ignorance.

  • 9t t t t tE(u / X ) = 0 E(Y / X ) = + X (1.2)et

    2 2 2t t t t tVar(u / X ) = E[(u - E(u )] = E(u ) = (1.3)

    Gomtriquement hypothse (1.2) peut tre vue de la maniresuivante

    Comme indiqu sur la figure, chaque Y observation correspondant un X donn, est distribu autour de sa moyenne avec quelquesvaleurs de Y au dessus de la moyenne et quelques valeurs de Yau dessous. Les distances de tous les points par rapport lamoyenne ne sont rien d'autre que les ut et la condition t tE(u / X ) = 0requiert que la moyenne de ces dviations soit gale 0.2

    Hypothse (1.3) qui est quivalente lhypothse que2

    t tVar(Y / X ) = exige que la variance de u soit gale un nombreconstant 2. Ceci est lhypothse d'homoscdasticit.

    2 PRF veut dire Population Regression function.

  • 10

    2. t s s s t t t sCov(u , u ) = 0 E(u - E(u ))(u - E(u )) = E(u , u ) = 0 pour t s

    O t et s sont deux diffrentes observations. Hypothse 2 rfre l'hypothse d'absence d'autorrlation.

    t s t t s s

    t t s s t s

    E(u , u ) = E[Y - - X ][Y - - X ]= E[Y - E(Y )][Y - E(Y )] = E(Y , Y )

    en dautres termes dire que tu et su sont non-corrls, cest aussidire que tY et sY sont non-corrls.

    3. Cov(ut, Xt) = E(ut - E(ut))(Xt - E(Xt) = 0u et X sont uncorrls. Sils sont corrls, on ne peut distinguerles effets de u et X sparment.

    4. X est non stochastique. En dautres termes ce n'est pas unevariable alatoire.

    Le Modle Complet peut donc scrire comme1. t t tY = + X + u 2. 2tu ~ N(0, )3. t sE(u , u ) = 0 t s 4. X est non stochastique5. t t t t t tCov(u , X ) = E((u - E(u )(X - E(X )) = 0

    Quelles sont les inconnues dans le modle ci-dessus? 2, , ,trois paramtres inconnus estimer. Un modle satisfaisant leshypothses 1 5 est connu sous le nom de Modle Classique deRgression Linaire. Nous avons spcifi le modle de rgressionde manie complte. Regardons quelques unes de sescaractristiques.

  • 11

    t t tY = + X + u

    do

    t tE(Y ) = + X

    cest dire que la moyenne de Y nest rien dautre que t + X .On obtient ce rsultat car et sont des paramtres et X estnon stochastique c.a.d. que ce nest pas une variable alatoire.Dautre part

    2 2 2 2t t t t t t tVar(Y ) = E[Y - E(Y )] = E( + X + u - - X ) = E(u ) =

    Mais

    t t tY = + X + u

    or dans lexpression t t + X + u , et sont deux paramtres etX nest pas une variable alatoire, donc seul tu est une variablealatoire. Donc

    ( )t tY f u

    Donc si u ~ N alors Y ~ N et donc on a le rsultat important suivant2

    t tY ~ N( + X , ) (1.4)

    On peut illustrer le rsultat (1.4) graphiquement. Gomtriquementune ligne de rgression est simplement l'ensemble des pointsreprsentant la moyenne de Y pour des valeurs fixes de X.

  • 12

    t tE(Y ) = + X est la PRF. Que mesurent et ? mesure la valeur moyenne de Y correspondant X = 0 mesure le changement dans la valeur de la moyenne de Ycorrespondant un changement unitaire de X

    Cependant la PRF n'est pas connue, on doit donc l'estimer, cest dire que l'on doit estimer et partir d'un chantillon. Quand et sont estimes, on obtient alors une SRF(SampleRegression Function). Si et sont estims par lesestimateurs et , la SRF sera alors donne par la fonction

    t tY X

  • 13

    O tY est un estimateur de ( )tE Y . est un estimateur de et est un estimateur de . Donc on peut crire

    t t t t tY Y u X u

  • 14

    On peut voir le problme d'estimation des paramtres d'un modlede rgression comme un problme d'estimation des paramtres d'unedistribution de probabilit de Y. En effet, comme on l'a dj vu

    2t tY ~ N( + X , )

    Le problme donc d'estimation des paramtres , et 2 estquivalent au problme d'estimation de la moyenne de Y et savariance. Ceci peut tre rsolu de plusieurs manires. Nousallons dcrire ici la procdure dite OLS. Notre objet est d'obtenirun estimateur qui aurait autant de proprits statistiques dsirablesque possible. Un tel estimateur pourra alors tre utilis pour lestests dhypothses (Infrence).

    Avant daller plus loin, donnons un exemple qui clarifierait tout cequi vient dtre dit. Supposons une population de 56 familles.Nous nous intressons la relation entre consommation des familles(C) et le revenu disponible (Y). Nous partitionnons les 56familles en 10 groupes de mme revenu, soit donc la table suivante(toutes les donnes sont en dollars)

    Tableau 1Y

    C

    70 80 100 120 130 140 160 200 210 220

    Consommationpar Famillepar Mois en$

    5560707580

    657075909598

    76859098

    809095120125140145

    100120125130148

    110120126130143

    125132141150

    130134149152156172182

    143154163172187198

    150160171182194201210

  • 15

    La table ci-dessus doit tre interprte de la faon suivante.Correspondant un revenu de 70$ par mois, il y a cinq famillesayant une consommation entre 55 et 80$ par mois. Similairement,pour un revenu de 220$ par mois, il y a 7 familles ayant uneconsommation mensuelle entre 150 et 210 $ et ainsi de suite. Endautres termes, chaque colonne de la table nous donne ladistribution conditionnelle de la consommation (C) pour un niveaude revenu (Y) fix.

    A partir de cette table, nous pouvons calculer par exemple laprobabilit conditionnelle de C pour un Y donn. Par exemplequelle est la probabilit dobtenir une consommation de 80$ pour unrevenue de 70$, et on crira ( 80/ 70)p C Y . Puisque lon a cinqfamilles dans la catgorie de revenu gal a 70$, alors

    1( 80/ 70) 5p C Y

    de la mme faon1( 140/ 120) 7p C Y

    Nous pouvons aussi calculer les moyennes conditionnelles soit( / )E C Y . Par exemple

    5

    1

    1 55 60 70 75 80( / 70) 685 5iiE C Y Y

    la table ci-aprs nous donne les moyennes conditionnelles pourchaque niveau de revenu.

  • 16

    Tableau 2

    La moyenne conditionnelle nest rien dautre que lesprancemathmatique. Tableaux 1 et 2 peuvent tre mis graphiquement,soit la figure 6.

    Y C

    70 80 100 120 130 140 160 200 210 220

    Consommationpar Famille parMois en $

    5560707580

    657075909598

    76859098

    809095120125140145

    100120125130148

    110120126130143

    125132141150

    130134149152156172182

    143154163172187198

    150160171182194201210

    ( / )E C Y 68 82.16 87.25 113.57 124.6 125.8 137 153.57 169.5 181.14

  • 17

    Le graphique 6 montre clairement la distribution conditionnelle de laconsommation correspondant divers valeurs de revenu. Bien quily ait des diffrences de consommation entre familles, le graphiquemontre clairement que la consommation augmente en moyenne avecle revenu, en effet, la moyenne conditionnelle augmente. Toutesles moyennes conditionnelles sont sur une mme ligne, la ligne dergression. En dautres termes donc, la ligne de rgression nestrien dautre que lensemble des points reprsentant les moyennesconditionnelles. Pour tout revenu donn, il existe une population devaleurs de la consommation dont on fait lhypothse quelle estnormalement distribue, soit la figure 7.

  • 18

    Il est clair que la moyenne conditionnelle ( / )iE C Y est une fonctionde Y. Symboliquement donc on crira

    ( / ) ( )i iE C Y f Y

    plus explicitement( / )i iE C Y Y (1.5)

    o et sont des paramtres fixes. Equation (1.5) nest riendautre que la PRF. Quel est maintenant le lien entreconsommation familiale et moyenne. Nous pouvons voir dans letableau 1 que la consommation familiale naugmente pasncessairement avec le revenu. Par exemple pour un revenu de80$ il y a une famille qui consomme seulement 65$ ce qui estinfrieur la consommation de trois familles dont le revenu est de

  • 19

    70$. Nous pouvons donc crire pour chaque niveau de revenu larelation suivante

    ( / )i i iu C E C Y

    ou encore( / )i i iC E C Y u (1.6)

    qui daprs quation (1.5) peut encore scrire comme

    i i iC Y u (1.7)Equation (1.6) postule que la consommation par famillecorrespondant un revenu donn est gale la moyenne de laconsommation de toutes les familles avec ce revenu plus unequantit positive ou ngative qui est alatoire.Remarque Dire que la ligne de rgression passe par les pointsde moyenne cest aussi dire que la moyenne conditionnelle de uest gale zro. En effet si

    ( / )i i iC E C Y u

    alors en prenant les esprances de part et dautre( / ) ( / ) ( / )i i iE C Y E C Y E u Y

    do( / ) 0iE u Y

    Les donnes dans le tableau 1 constituent la population. Enralit, nous ne disposons jamais de la population mais plutt dunchantillon. Supposons donc que les donnes dans le tableau 1

  • 20

    nous taient inconnues et que nous disposions que dun chantillonsoit le tableau 3 ci-dessous

    Tableau 3Y C70 7080 65100 76120 90130 120140 126160 132200 152210 163220 171

    La relation entre Consommation et Revenu peut tre mise dans ungraphique Cartsien, soit la figure 8.

  • 21

    Avant d'aller plus loin essayons de voir que reprsente u le rsidu.(i). Omission de Variables. C'est le problme dit de lerreur deSpcification. L'quation est mal spcifie en ce sens que d'autresvariables peuvent aussi jouer cte de la variable choisie.(ii). Indtermination humaine. Le comportement humain esterratique en ce sens que diffrentes actions peuvent tre prisessous des conditions similaires.(iii). Erreur de mesure. Il est possible que la variable tantexplique soit mesure avec erreur cause des problmes decollecte des donnes.

  • 22

    1.2.2 Procdure Destimation, La Mthode OLSSoit le modle de rgression

    t t tY X u

    do t t tY Y u

    il vient donc ncessairement que

    t t tu Y Y

    Critre 1 Soient T observations sur Y et X, on veut dterminer laSRF de telle manire ce qu'elle soit aussi proche que possiblede Y actuel(la valeur observe sur Y). Donc on veut choisir laSRF tel que Min ( )t t tu Y Y .

    Figure 9 La Mthode ( )t t tu Y Y

  • 23

    La mthode n'est pas bonne car les tu reoivent les mmes poids.Supposez par exemple que

    1 2 2 4 10 u 2 u 2 u 10u

    donc 0tu

    1u et 2u reoivent les mmes poids alors mme quils sont plusloigns que 3u et 4u .

    Critre 2 Le Critre des Moindre Carrs (OLS)Il sagit ici de minimiser la somme des carrs des rsidus 2tu .Soit donc la fonction objective minimiser

    2 2 2 ( ) ( )t t t t tu Y Y Y X

    Minimiser cette fonction revient prendre les drives partielles parrapport et et galiser ainsi ces drives zro. Les deuxquations ainsi drives peuvent tre rsolues pour et . Soitdonc

    2 2 ( )t t tS u Y X il vient alors

    2 ( ) 0 t tS Y X

    et

  • 24

    2 ( ) 0 t t tS Y X X

    on obtient alors( ) 0t tY X (1.8)

    do 0tu

    et( ) 0t t tY X X (1.9)

    do 0t tu X

    Equations (1.8) et (1.9) sont appeles les Equations Normales.De ces quations on obtient les quantits suivantes

    t tY T X (1.10)2t t t tYX X X (1.11)

    On a donc deux inconnues et deux quations. Le systme (1.10)- (1.11) peut tre rcrit comme

    2

    t t

    t t t t

    T X YX X YX

  • 25

    Do par la mthode de Cramer, on obtient les quantits suivantes Y X (1.12)

    et

    2( )( )

    ( )t t

    t

    X X Y YX X

    (1.13)

    si on pose t tx X X et t ty Y Y , alors quation (1.13) peuttre rcrite comme

    2 t t

    t

    x yx

    (1.14)

    1.3 Proprits de la SRF

  • 26

    1. Les estimateurs obtenus sont uniquement fonction de quantitsobservables

    2. Ils sont des points estimateurs3. La ligne de rgression passe par les points ),( YX . En effet

    t tY X

    si donc tX X , alors tY X Y X X Y

    4. Y Y . Cela veut dire que la Moyenne Estime = MoyenneActuelle, Ce rsultat est facilement dmontrable. En effet,

    ( ) ( )t t t tY X Y X X Y X X

    ( )t tY Y X X t tY Y Y TY Y Y

    5. La moyenne des rsidus = 0. Ce rsultat est vident si onregarde lquation (1.8), la premire quation normale.

    6. Les rsidus sont uncorrls avec les Xt. Ici aussi, ce rsultatest obtenu directement de lquation (1.9).

    (u )( ) ( ) 0t t t t t t t t tu X X u X X u X X u u X

    7. Les rsidus sont uncorrls avec les tY , ce qui veut dire que(u , ) 0t tCov Y . En effet,

  • 27

    ( ) 0t t t t t t tYu X u u X u

    Remarque t t tY X u

    donc on peut criret tY T X

    Do

    t tY XT T

    AlorsY X

    Maist t tY X

    Donc ( )t t tY Y X X u

    ou encore t t ty x u (1.15)

    ce qui implique que

  • 28

    t ty x (1.16)

    c'est dire qu'en forme dviationnelle l'intercepte n'existe pas.

    1.4 Le Coefficient de Dtermination : le R2

    Le R2 indique la proportion de variation dans la variable endognequi est explique par la variable exogne. Pour driver la formuledu R2, on part de lexpression suivante

    t t ty y u

    en sommant cette dernire expression2 2 2 2 2 2 2 2 ( )t t t t t t t t ty y u y u y u Y Y u

    Donc2 2 2 2 t t ty x u

    do2 2 2 2 ( ) ( )t t tY Y X X u (1.17)

    Dfinissons la quantit TSS, Total Sum of Squares, ESS, ExplainedSum of Squares, et RSS, Residual Sum of Squares.

    2( )tY Y = TSS2 2 ( )tX X = ESS

    2tu = RSS

  • 29

    Equation (1.17) stipule queTSS = ESS + RSS (1.18)

    Divisons cette dernire par TSS, on obtient alorsESS RSS + 1TSS TSS

    Dfinissons 2 ESSR = TSS . R2 mesure donc la proportion de la somme

    explique par rapport la somme totale.20 R 1.

    Graphiquement, la dcomposition (1.18) peut tre vue dans legraphique ci-dessous.

    On peut donner une formule pour R2.

  • 30

    2 22 2

    2 2 t tt t

    y xESSR TSS y y (1.19)

    Soit r le coefficient de corrlation. Celui-ci peut tre calcul dedeux manires, une manire indirecte soit

    2r R (1.20)soit de manire directe

    2 2t t

    t t

    x yrx y

    (1.21)

    De manire gnrale

    1 1r Quelle diffrence y-a-t-il entre coefficient de dtermination etcoefficient de corrlation ? Bien que ces deux concepts soient lis,ils sont totalement diffrents. Le coefficient de corrlation entredeux variables X et Y mesure le degr dassociation entre cesdeux variables. Dans cette optique, les deux variables X et Ysont traites symtriquement, cest dire quil ny a pas dedistinction entre variable endogne et variable exogne. En dautrestermes le coefficient de corrlation ne mesure pas la direction decausalit entre deux variables. Au contraire dans le coefficient dedtermination les variables sont traites asymmtriquement, cest dire quune variable est endogne et lautre exogne, dit autrement,le coefficient de dtermination mesure la direction de causalit entredeux variables.

    A quoi sert le coefficient de corrlation ? la rponse estdcevante, pas grand chose. Quelques exemples vont illustrer ce

  • 31

    point. On observe une forte corrlation entre consommation deauet vente de lunettes de soleil. Daprs notre dfinition, il y a unfort degr dassociation entre ces deux variables, et point final.Mais nous ne pouvons dire que la consommation deau cause leport de lunettes de soleil, moins que la consommation deaufasse mal aux yeux et nous oblige par consquent porter deslunettes de soleil. Nous ne pouvons non plus dire que le port delunettes de soleil provoque lenvie de boire. Ce que nous prenonsdonc pour une cause nest rien dautre quune simultanit. Il estbien vident daprs notre discussion que les deux variablesconsommation deau et port de lunettes de soleil sont relies unetroisime variable, la chaleur. Donc bien que la forte corrlationentre eau et lunettes de soleil soit intressante en tant que telle,elle ne dfinit pas une causalit. Pour cela il faut penser unmodle explicative, lestimer et utiliser le 2R et non le coefficient decorrlation.

    De plus le coefficient de corrlation nous donne des rsultats assezsouvent sans intrt, cest le cas des concidences. En effet denombreuses variables sont trs souvent croissantes sur une longuepriode. Elles prsenteront donc des coefficients de corrlationlinaire assez levs sans quaucun lien de causalit nexiste entreelles. Le PIB Marocain et le taux de mortalit des lphants enAfrique, la population Bolivienne et le prix du 2m dans le centreville de Tokyo, les ventes totales de Toyota et le nombredcrivains dans le monde etc

    Le lien entre causalit et corrlation peut donc se synthtiser de lamanire suivante

    Causalit CorrlationCorrlation Causalit

  • 32

    Exemple 3 Dans une estimation de la variable Consommation desmnages(C) contre Revenu des mnages(Y)(les donnes sontdans le tableau 3), on trouve les rsultats suivants

    2

    =13.918 0.717360.956047

    t t tC Y YR

    Comment interprter les valeurs numriques des estimateurs et le2R ?. Concernant la pente( 0.71736 ), celle-ci nous dit la chose

    suivante, si le revenu augmente de 1$, la consommationaugmenterait en moyenne de 0.71$.3 Concernantlintercepte( 13.918 ), il est tentant de dire que pour un revenugal zro, la consommation serait en moyenne de 13.9$. Lesconsommateurs dspargneraient. Cependant bien que cetteinterprtation soit valide dans le cas de notre modle Cons-Rev, cetype dinterprtation nest pas toujours adquat comme nous leverrons par la suite.

    2R nous dit ici que environ 95% des variations de la consommationdes mnages est explique par le revenu des mnages. Endautres termes, le revenu explique environ 95% des variations dela consommation. Bien videmment, les 5% restants sont ds auxrsidus, c.a.d. ce que notre modle nexplique pas.4

    Exemple 4 Comment interprter les estimateurs si les donnestaient mesures en milliers de dollars plutt quen dollars. Dans

    3 La pente ici nest rien dautre que la fameuse propension marginale consommer.4 Un modle dans lequel la variable exogne explique 100% des variations dela variable endogne serait trs douteux.

  • 33

    ce cas si le revenu augmente de 1000$, la consommationaugmenterait en moyenne de 710$.Vous pouvez remarquer deux choses dans linterprtation que nousavons faite des estimateurs. Premirement, les units de mesuresont importantes puisque ce sont elles qui nous aident interprtercorrectement nos rsultats. Deuximement, vous remarquerez leterme en moyenne. En effet, les consommationsindividuelles(dans notre cas les consommations/famille) ne nousintressent pas, elles peuvent diminuer ou augmenter, ce nest pasimportant, ce qui nous intresse plutt cest le comportement moyencest dire la consommation moyenne.5

    5 La Science Economique est une science des moyennes. Par exemple si leprix dune marchandise augmente, je ne peux prdire ce que fera un individuparticulier, mais je peux prdire quen moyenne les consommateurs de cettemarchandise diminueront leur quantit demande.