Chapitre 4: Validation d'un Modèle de Régression...

34
Chapitre 4: Validation d’un Modèle de Régression Linéaire SAID EL MELHAOUI Faculté des Sciences Juridiques, Économiques et Sociales Oujda http://said-el-melhaoui.e-monsite.com/pages/mes-cours/methodes- economiques.html S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 1 / 34

Transcript of Chapitre 4: Validation d'un Modèle de Régression...

  • Chapitre 4: Validation d’un Modèle deRégression Linéaire

    SAID EL MELHAOUI

    Faculté des Sciences Juridiques, Économiques et Sociales Oujda

    http://said-el-melhaoui.e-monsite.com/pages/mes-cours/methodes-economiques.html

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 1 / 34

  • Outline

    1 Introduction

    2 Hypothèses

    3 Implication de la violation des hypothèses

    4 Diagnostic des infractions des hypothèses et remèdes

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 2 / 34

  • Introduction

    Introduction

    Le choix du type du modèle (linéaire, log-linéaire...) ainsi que lasélection des variables explicatives à introduire reste hypothétiqueet par conséquent ces choix doivent être soumis à la validation enfin de la modélisationLes contraintes théoriques liée aux bonnes conditions del’exécution de la MCO nécessitent le postulat de certaineshypothèses qui doivent à leurs tour être vérifiéesLa validation du modèle passent nécessairement par lavérification du respect de ces hypothèses

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 3 / 34

  • Hypothèses

    Hypothèse sur la forme du modèle

    (H1) Hypothèse de bonne spécification: Le modèle ou latransformée du modèle est linéaire

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 4 / 34

  • Hypothèses

    Hypothèses sur les erreurs

    (H2) Les erreurs ε1, ε2, . . . , εn ont une espérance nulle :

    E(εi) = 0 ∀i = 1, . . . ,n

    (H3) Hypothèse d’homoscédasticité: toutes les erreurs ont lamême variance:

    V (εi) = σ2, ∀i = 1, . . . ,n

    (H4) Hypothèse de non autocorrélation des erreurs:

    Cov(εi , εj) = 0, ∀i 6= j

    (H5) Hypothèse de normalité : les erreurs sont normalementdistribuées

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 5 / 34

  • Hypothèses

    Hypothèses sur les variables explicatives

    (H6) Les variables x1, x2, . . . , xp sont non aléatoiresNotons que la théorie se généralise facilement pour des variablesaléatoires par passage aux probabilités conditionnelles(H7) Hypothèse de non multi-colinéarité : Les variablesx1, x2, . . . , xn sont linéairement indépendantes (algébriquementet stochastiquement)Cette hypothèse assure que la matrice (XXX TXXX ) est inversble

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 6 / 34

  • Implication de la violation des hypothèses

    Implication de la violation de l’hypothèse de bonne spécification

    (H1) Linéarité du modèleMauvais ajustement, grande variance résiduelle et par conséquentles conclusions sont erronées (Erreur de spécification)

    N. B. L’hypothèse (H2) n’est pas soumise à la vérification car parconstruction de la MCO on a ē = 0.

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 7 / 34

  • Implication de la violation des hypothèses

    Implication de la violation de l’hypothèse d’homoscédasticité

    (H3) Hypothèse d’homoscédasticitéL’estimateur du paramètre β est non biaisé mais non efficaceL’estimateur de σ2 est biaiséL’estimateur de la matrice variance-covariance du vecteur β estbiaiséece qui provoque un problème dans la construction des intervallesde confiance et peut fausser les résultats des tests

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 8 / 34

  • Implication de la violation des hypothèses

    Implication de la violation de la non autocorrélation des erreurs

    (H4) Hypothèse de non autocorrélationL’estimateur du paramètre β est non biaisé mais non efficaceL’estimateur de la matrice variance-covariance du vecteur β estbiaiséce qui provoque un problème dans la construction des intervallesde confiance et peut fausser les résultats des tests

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 9 / 34

  • Implication de la violation des hypothèses

    Implication de la violation de l’hypothèse de normalité des erreurs

    (H5) Hypothèse de normalité des erreursHypothèse nécessaire pour les petits échantillons (n < 30), pouravoir des intervalles de confiance et des tests validesSinon elle n’est pas vraiment requise pour les grands échantillons

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 10 / 34

  • Implication de la violation des hypothèses

    Implication de la violation de la de non multi-colinéarité desrégresseurs

    (H7) Hypothèse de non multi-colinéaritéMulti-colinéarité parfaite (au sens algébrique) : EstimationimpossibleQuasi Multi-colinéarité: instabilité du modèle, des petitesvariations dans les données peuvent changer complètement lemodèle estimé

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 11 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    Violation de l’hypothèse de la bonne spécification

    Diagnostic graphique: la forme du nuage des points (ScaterPlot) (ŷi , zi) n’a pas la forme d’un nuage de résidus i.e., ronde,symétrique et horizontale

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 12 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    Violation de l’hypothèse de la bonne spécification

    Diagnostic formel: R2 ≈ 0 et/ou DW ≈ 0Remède: Transformation du modèle par linéarisation du modèleen transformant les variables via une fonction log ou uneDifférentiation..., recherche et ajout de variables explicatives,changement du modèle

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 13 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Diagnostic graphique de la violation de l’hypothèsed’homoscédasticité

    Les nuages des résidus (ŷi ,ei) et/ou (x̂i ,ei) ne sont pas habituelles,en effet, l’existence d’une tendance ou des valeurs aberrantes ou desgroupements de points remarquables indique l’éventualité d’unehétéroscédasticité

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 14 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Diagnostic formel de la violation de l’hypothèsed’homoscédasticité

    via la batteries testsTest de Goldfeld-QuandtTests de GlejserTest de WhiteTest ARCH-LM (pour les séries temporelles)

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 15 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3:Test de Goldfeld-Quandt

    Il s’applique lorsque l’erreur du modèle s’accroitproportionnellement avec l’une des variables explicatives :

    E(ε2) = σ2x2

    où σ2 est une constantePrincipe du test : Sélectionner deux sous échantillons un desplus petites valeurs de x et l’autre des plus grandes valeurs de xet comparer les deux modèles de régressions sur les deux partiesvia les sommes des carrés des résidus

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 16 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de Goldfeld-Quandt (suite)

    Etapes d’exécution du test:1 Classer les observations selon x du plus petit au plus grand2 Omettre c observations centrales ; c prédéterminée (entre 1/4 et

    1/3 de n) ; et diviser le reste en deux groupes chacun comprenant(n − c)/2 observations

    3 Ajuster séparément les régressions du premier et du deuxièmegroupe, obtenir les SCRes1 et SCRes2 dont le degré de liberté est

    dl =n − c

    2− (p + 1)

    4 Calculer le ratioλ =

    SCRes2SCRes1

    Sous l’hypothèse nulle H0 de l’hemoscédasticité et sous del’hypothèse de la normalité λ ∼ Fdl,dl

    5 RH0 si λ > F1−α;dl;dlS., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 17 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de Glesjer

    Il s’applique lorsque l’amplitude de l’erreur du modèle estéventuellement une fonction d’une des variables explicatives:

    |ε| = f (x)

    Principe du test : Régresser (Régression auxiliaire) les valeursabsolues des résidus |e| issu de la régression principale parrapport à quelques fonctions usuels de x :

    |e| = α0 + α1x + u|e| = α0 + α1(x)1/2 + u|e| = α0 + α1(x)−1 + u|e| = α0 + α1(x)−1/2 + u

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 18 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de Glesjer (suite)

    |e| = α0 + α1(x)2 + u|e| = α0 + α1(x)−2 + u

    où u est une erreur (bruit blanc)Exécution du test: RH0 si α1 est significativement différente de

    0, via le test individuel de Student sur la régression auxiliaire i.e.,RH0 si

    |T | = α̂1Sα̂1

    > t1−α/2;n−2

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 19 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de White

    Il est plus facile, plus général et ne suppose pas la normalitéPrincipe du test : Régresser les carrés des résidus e2i issu de larégression principal par rapport aux régresseurs initiaux, leurscarrés et leurs valeurs croisésExemple: Pour le modèle initial à deux variables :

    y = β0 + β1x + β2x2 + ε

    on utilise la régression auxiliaire suivante:

    e2 = α0 + α1x1 + α2x2 + α3x21 + α4x22 + α5x1x2 + u

    où u est une erreur (bruit blanc)

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 20 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de White (suite)

    Etapes d’execution du test:1 Executer la régression principale et sélectionner les résidus ei2 Executer la régression auxiliaire de e2i sur les régresseurs xi et

    xi ∗ xj i , j ∈ 1, . . . ,p et calculer son R2Asymptotiquement, sous l’hypothèse d’homoscédasticité

    n ∗ R2 ∼ χ2dl

    où dl=nombre de régresseurs dans la régression auxiliaire(Exemple dl = 5)

    3 Comparer n ∗ R2 au quantile χ21−α;dl et RH0 si

    n ∗ R2 > χ21−α;dl

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 21 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Test de White (suite)

    Remarques:1 Pour les grands échantillons le test de White est équivalent au test

    global de Fisher sur la régression auxiliaire: RH0 si

    SCreg/dlScres/(n − (dl + 1))

    > F1−α;dl;n−(dl+1)

    2 Lorsque p > 3 le dl devient assez grand, ainsi la régressionauxiliaire devient peu commode à exécuter. Un ajustement dutest de White s’impose: à la place des multiples régresseurs xi ,xi ∗ xj on prend seulement les deux régresseurs ŷ et ŷ2 (les ŷ etŷ2 ne sont rien d’autre qu’une combinaison des régresseurs xi ,xi ∗ xj ): RH0 si

    n ∗ R2 > χ21−α;2

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 22 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H3: Remèdes à la violation de l’hypothèse d’homoscédasticité

    Utiliser la méthode des moindres carrées généralisée (MMG,GLS)Considérer un modèle avec erreur autorégressive conditionnellehomoscédasticité (ARCH)Introduires d’autres variables et/ou changer la nature de larégression

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 23 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Diagnostic graphique de l’infraction de l’hypothèse de nonautocorrélation

    La courbe chronologique des résidus (i ,ei) n’est pas conforme à lanature d’un nuage de points des résidus comme bruit blanc

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 24 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Diagnostic formel de l’infraction de l’hypothèse de nonautocorrélation

    Via le test de Durbin Watson qui detecte l’autocorrélation d’ordre1 (entre deux erreurs consécutives):

    εi = ρεi−1 + ui

    Le test DW est basé sur la statistique

    DW =∑n

    i=2(ei − ei−1)2∑ni e

    2i

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 25 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Diagnostic formel de l’infraction de l’hypothèse de nonautocorrélation

    Après developpement on a

    DW =∑

    e2i +∑

    e2i−1 − 2∑

    eiei−1∑ni e

    2i

    et puisque∑

    e2i et∑

    e2i−1 ne diffère que d’une observation ilssont approximativement égaux:

    DW = 2

    (1−

    ∑eiei−1∑n

    i e2i

    )= 2(1− ρ̂)

    où ρ̂ l’estimateur du coefficient d’autocorrélation des résidus ρdéfinie par :

    ρ̂ =

    ∑eiei−1∑n

    i e2i

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 26 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Test de Durbin-Watson

    Puisque que −1 < ρ < 1 alors 0 ≤ DW ≤ 4, etSi ρ̂ ' 0 absence de corrélation alors DW ' 2Si ρ̂ ' 1 forte corrélation positive alors DW ' 0Si ρ̂ ' 1 forte corrélation négative alors DW ' 4

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 27 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Règle de décision du test de DW

    DW Décision]0,d1] autocorrélation positive]d1,d2] doute]d2,4− d2] pas d’autocorrélation]4− d2,4− d1] doute]4− d1,4] autocorrélation négative

    Notons que les valeurs d1 et d2 sont tabulées pour différents valeursde p et n et α = 0.01,0.05, & 0.10

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 28 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    H4: Remède à la détection de l’autocorrélation

    Insérer une nouvelle variable explicative afin d’expliquerl’information qui reste dans l’erreurRevoir la forme de l’erreur et le modèle

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 29 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    (H5): Diagnostic graphique de l’infraction de l’hypothèse denormalité

    Histogramme des résidus de forme non GuassienneLes points des nuages PP-plot ou QQ-Plot (comparaison entre lesfréquences (P) et les quantiles (Q) observés et ceuxhypothétiquement normales) loin de la première bissectrice duplan

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 30 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    (H5): Diagnostic formel de l’infraction de l’Hypothèse de normalité

    Test d’ajustement de Chi-deux (test classique d’ajustement desobservations par une loi hypothétiqueComparaison des valeurs du skewness et kurtosis (momentscentrés réduits d’ordres respectivement trois et quatre) desrésidus avec les valeurs hypothétique normales zéro et troisrespectivementTest de Jarque-Bera

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 31 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    Test de Jarque-Bera

    Etapes d’exécution du test :1 Executer la régression principale Calculer le skewness et

    kurtosis respectivement:

    B =1n

    ∑i

    ê3i et K =1n

    ∑i

    ê4i

    où êi = ei/√

    Mcres sont les résidus standardisés2 Calculer la statistique du test est

    JB = (n − p − 1)(

    B2

    6+

    (K − 3)2

    24

    )Jarque and Bera (1987) ont montré que asymptotiquement sousl’hypothèse de normalité JB ∼ χ22

    3 Comparer JB au quantile χ21−α;2 et RH0 si

    JB > χ21−α;2S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 32 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    (H5) : Remèdes à l’infraction de l’hypothèse de normalité

    Augmenter la taille d’échantillonutiliser les méthodes non paramétriquesChercher d’autres infractions aux hypothèses qui peuvent causercette anomaliechanger le modèle

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 33 / 34

  • Diagnostic des infractions des hypothèses et remèdes

    (H7) Hypothèse de non multi-colinéarité

    Diagnostic Symptômatique: Message d’erreur : ‘near singularmatrix ’, Signes des estimations contre intuitif, variables nonsignificatives contre intuitive, Global significativité et des nonsignifications individuelles ; erreurs Standards des estimateurstrès grandesDiagnostic formel: via les tests de corrélation sur les variablesexplicatives: test de Kendall, test de SpearmanRemède: enlever la variable non significative notamment via uneméthode progressive ‘Steep-wise’utiliser une ACP pour trouver des facteurs (combinaisons linéairesdes xi ) qui sont indépendantsutiliser une PLS (moindres carées partielle)revoir le modèle et essayer de comprendre la dépendance decertaines variables explicatives

    S., EL MELHAOUI (FSJESO) Validation d’un Modèle de Régression Linéaire 04/2019 34 / 34

    IntroductionHypothèsesImplication de la violation des hypothèsesDiagnostic des infractions des hypothèses et remèdes