1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous...

36
1 Modeles Lineaires

Transcript of 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous...

Page 1: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

1

Modeles Lineaires

Page 2: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

2

Econometrie

• Economie+Stats+Algebre Lineaire+Maths+PC• Dans la pratique, nous faisons face a une masse

enorme de donnees Information incomplete• Quel est le modele adequat? Comment le

specifier et l’estimer?• Le modele lineaire constitue un outil essentiel

d’inference• Malgre son apparente simplicite, faire

attention aux hypotheses sous jacentes• La theorie economique/financiere implique

les maths, pas le contraire

Page 3: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

3

Regression: Population• Y=variable dependante • X= regresseurs, variables explicatives• A distinguer: Difference entre population et echantillon• Pour une population, nous ecrivons:

y = 0 + 1 x.

0 est l’ordonnee a l’origine, et 1 la pente

• La variable dependante variable change de maniere proportionelle pour toute variation dans les variables independantes

• Modele economique Expression mathematique

Page 4: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

4

Regression: Echantillon

• Nous n’observons pas toute la population• Seulement un echantillon tire

aleatoirement

y = b 0 + b 1 x.

• b0 est un estimateur de 0.

• b1 est un estimateur de 1.

Page 5: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

5

Representativite?

Meme si l’echantillon est tire aleatoirement parmi une population, il n’y a pas de garantie absolue que l’echantillon soit representatif

x

y

Regression: Population

(parametres inconnus)

Regression: Echantillon

Page 6: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

6

Outils

• Les estimateurs b0 et b1 sont ils precis?

• Deux methodes inferentielles: – Intervalles de confiance– Tests d’hypotheses

• Objectifs: Examiner la qualite de la regression (relation entre y observes et y prevus)

Page 7: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

7

Hypotheses

• Inclusion d’un terme d’erreur d’estimation car dans la pratique aucune paire de variables ne presente une relation lineaire parfaite

• Modele de regression simpley i = 0 + 1 x i + i

1. Les i sont distribues normalement, avec une moyenne de 0 et une variance e

2.

2. Les i sont independants les uns des autres

3. Les i sont independants de X

Page 8: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

8

Regression Parfaite

• Y = 1X

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10

X

Y

Page 9: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

9

Un Monde Imparfait

• Y = 1X + eRegression Lineaire

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10

X

Y

Page 10: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

10

Estimation des Parametres 0, 1,

et e2

bn( xy) ( x)( y)

n x ) ( x)1 2 2

(

b1

n( y b x)0 1

sn 2

22

e

e

Page 11: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

11

Objectif

• Moindres Carres Ordinaires (MCO): modele lineaire qui a pour objectif de minimiser la somme des erreurs au carre

• Theoreme de Gauss-Markov: BLUE• “Best Linear Unbiased Estimator”

– L’estimateur MCO est celui possedant la plus petite variance parmi tous les estimateurs lineaires

Page 12: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

12

Autres Objectifs

• La minimisation des erreurs au carre n’est qu’une fonction-objectif parmi d’autres– Minimiser valeur absolue des erreurs– Minimiser erreurs simples

• Erreurs simples: Leur somme est egale a 0 • Des modeles bases sur la deviation

absolue minimale existent mais ils sont lourds a manipuler mathematiquement – Algebre avec un operateur de valeur absolue

Page 13: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

13

Implications du Modele MCO

• Le modele cherche a eviter les grandes erreurs • Une grande valeur de e pour une observation

conduit generalement a une grande e2 finale• Les resultats de la regression peuvent etre tres

influences par des anomalies (outliers)• Toujours examiner les donnees• Toujours examiner les residus de la

regression

Page 14: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

14

Derivation

• Notation– y est le vecteur nx1 de la variable dependante– X est la matrice nxp des variables independantes est un vecteur px1vector. – Notation transposee: ‘

• Minimiser la somme des erreurs au carre • Min par rapport a

= (y X) (y X)

= y y Xy yX + XX

Page 15: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

15

Derivation

• Nous devons minimiser 2yX + XX par rapport a

• Changeons la notation et ecrivons A=yX and C= XX

• L’expression s’exprime: 2A + C • Nous appliquons deux regles de derivation

matricielle • (1) La derivee de A par rapport a est A • (2) La derivee de C par rapport a est 2C

Page 16: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

16

Derivation

• A=yX et C= XX • L’expression a minimiser s’ecrit 2A + C• La derivee est egale a zero au minimum • Par application des deux regles precedentes: 2 A + 2C =0• Substituons A = Xy et C= XX 2 Xy + 2 XX =0 2 XX = 2 XyXX = Xy

Page 17: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

17

Derivation

• La solution du probleme de minimisation

XX = Xy• Pre-multiplions les deux cotes par (XX)1

= (XX)1 Xy

• Une partie importante de l’econometrie se concentre sur l’estimateur MCO b = (XX)1 Xy et ses extensions selon differentes hypotheses pour

Page 18: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

18

Hypotheses

• Pour une regression bivariee donnee

• 1. Echantillon aleatoire– Au moins N > 20

• 2. La relation entre variable est lineaire– i.e., la moyenne de Y augmente lineairement

avec X– Representer graphiquement X et Y– Prendre garde aux relations non lineaires (e.g.,

forme en U)

Page 19: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

19

Hypothese

• 3. Y est distribuee normalement, conditionellement a la valeur de X– “Normalite conditionelle”

• Ex: Annees d’education = X, Prestige (Y)

• Supposons que nous examinons un sous echantillon (X = 12)– L’histogramme de Y est il normal?– Qu’en est il pour X=4 ou X=16?

Page 20: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

20

Hypotheses

• Normalite:

INCOME

100000800006000040000200000

HA

PP

Y

10

8

6

4

2

0

Examiner des sous echantillons pour differentes valeurs de X. Faire des histogramme et verifier la normalite

HAPPY

8.00

7.50

7.00

6.50

6.00

5.50

5.00

4.50

4.00

3.50

3.00

2.50

2.00

1.50

1.00

.50

12

10

8

6

4

2

0

Std. Dev = 1.51

Mean = 3.84

N = 60.00

Decent

HAPPY

10.00

9.50

9.00

8.50

8.00

7.50

7.00

6.50

6.00

5.50

5.00

4.50

4.00

3.50

3.00

2.50

2.00

1.50

1.00

.50

12

10

8

6

4

2

0

Std. Dev = 3.06

Mean = 4.58

N = 60.00

Pas Bon

Page 21: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

21

Hypotheses

• 4. Les variances des erreurs d’estimation sont identiques pour tout valeur de X– Rappel: L’erreur represente la deviation par

rapport a la ligne de regression– Definition: “homoskedasticite” = La dispersion

des erreurs est stable quelles que soient les valeurs de X

– Oppose: “heteroskedasticite”, les erreurs varient avec X

• Test: Comparer les erreurs pour X=12, X=2, X=8, etc

Page 22: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

22

INCOME

100000800006000040000200000

HA

PP

Y

10

8

6

4

2

0

Homoskedasticite

• Variance des erreurs identiquesExaminer les erreurs

pour differentes valeurs de X.

Ici, resultat satisfaisant

Page 23: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

23

INCOME

100000

90000

80000

70000

60000

50000

40000

30000

20000

10000

0

HA

PP

Y

10

8

6

4

2

0

Heteroskedasticite

• La variance des erreurs est fonction de X

Les hypotheses de la regression

lineaire sont inadequates

Page 24: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

24

Test d’Hypothese sur la Pente

• Exemple: La regression reliant le niveau d’education au prestige de la profession donne un coefficient de 2.47

• Question: Cet estimateur est il vraisemblable?– Est il possible que le coefficient observe est en fait tire

d’une population dont la pente est egale a zero? – Solution: Effectuer un test d’hypothesis

• Notation: pente = b, pente de la population = • H0: = 0• H1: 0

Page 25: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

25

Test d’Hypothese

• De quelle information avons nous besoin?

• Reponse: L’estimateur de la pente (b) a une distribution, comme n’importe quelle autre statistique

• Si certaines conditions sont remplies, la distribution se rapproche de la distribution de t– Nous pouvons evaluer la probabilite qu’une

certaine valeur de b serait observee si = 0– Si la probabilite est faible (<alpha), rejeter H0

Page 26: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

260

Distribution echantillonee de

la pente

Test d’Hypothese

• Representation: Si la pente de la population () est egale a 0, la distribution echantillonee devrait etre centree a 0– Nous travaillons sur une distribution de probabilite, nous

pouvons identifier quelle est la valeur attendue de b si la population a une pente egale a

Si =0, la pente estimee devrait etre proche de 0

b

Si l’estimateur est eloigne, il est improbable que beta=1, rejeter H0

Page 27: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

27

Test d’Hypothese

• La distribution de b doit se rapprocher de la distribution t

• Ecart type de la pente dans la population(b):

N

ii

eb

XX1

2

2

)(

e2 est la variance des residus

N est le nombre d’observations

Page 28: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

28

Test d’Hypothese

• Estimer e2:

ERRORERROR

N

ii

e MSN

SS

N

e

22ˆ 1

2

• Estimer l’ecart type de la pente:

N

ii

ERRORb

XX

MS

1

2)(̂

Page 29: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

29

Test d’Hypothese

• Etape finale: Utiliser la distribution de t– Pente divisee par son ecart type

)1(2

2

NsMS

b

s

bt

X

ERROR

YX

b

YXN

• sigmab est l’estimateur de l’ecart type de la pente calcule precedemment

• Le test est effectue sur la base de N-2 degres de liberte

Page 30: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

30

Intervalle de Confiance 1

•Deux objectifs:–Estimer la valeur de 1

–Estimer la qualite de b1

Definition

Valeur estimee du parametre

(x ecarts type selon le degre de confiance desiree)

(valeur estimee de l’ecart type de l’estimateur)

Page 31: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

31

Intervalle de Confiance

• Definition:

)(.. 2 Nb tsbIC

• Ou tN-2 est la valeur de la statistique t pour un test bivarie et un niveau de confiance alpha

• Exemple: Coefficient (pente) = 2.5, Ecart type. = .10• 95% t-value for 102 deg.lib. Est approx. = 2• 95% Intervalle de Confiance = 2.5 +/- 2(.10)

i.e. entre 2.3 to 2.7 avec 95% de probabilite

Page 32: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

32

“Outliers”• Meme si toutes les conditions preliminaires d’optimalite des

MCO sont remplies, il peut qd meme demeurer dses problemes

• Exemple: Outliers – valeurs extremes, tres differentes des valeurs moyennes de l’echantillon

• Sources:– Donnee incorrecte– Donnee correcte mais rare

• Quelques observations de ce type peuvent radicalement modifier les estimations MCO

Page 33: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

33

Exemple

-4 -2 0 2 4

4

2

-2

-4

Avec cette observation

Sans l’outlier: Aucune relation

Page 34: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

34

Qualite des Regressions

• Afin d’estimer la qualite de la regression (I.e. erreurs de prevision) nous avons besoin d’une valeur de reference

• Sans information additionelle, la moyenne de Y (variables dependante) correspond a cette valeur de reference

Page 35: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

35

Decomposition

• Variation Totale = Variation expliquee par le modele + Variation residuelle

y2 = 2 + e2

TSS Y Y

ESS Y Y

USS Y Y

i

i

i i

T o ta l S u m o f S q u ares

E x p la in ed S u m o f S q u ares

U n ex p la in ed S u m o f S q u ares

( )

( )

( )

2

2

2

Page 36: 1 Modeles Lineaires 2 Econometrie Economie+Stats+Algebre Lineaire+Maths+PC Dans la pratique, nous faisons face a une masse enorme de donnees Information.

36

R2

• R2 est defini comme 2 / y2 ou 1 - (e2 / y2)

• Donne la proportion de variance totale ( autour de la moyenne) expliquee par la regression 

• Par definition 0 R2 1• Correspond au carre de la correlation

entre X et Y