Statistique de base avec R Partie 2 : Test d'hypothèses et...

49
Statistique de base avec R Partie 2 : Test d’hypothèses et régression linéaire Julien JACQUES Polytech’Lille - Université Lille 1 Julien JACQUES (Polytech’Lille) Statistiques de base 1 / 48

Transcript of Statistique de base avec R Partie 2 : Test d'hypothèses et...

Page 1: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Statistique de base avec RPartie 2 : Test d’hypothèses et régression linéaire

Julien JACQUES

Polytech’Lille - Université Lille 1

Julien JACQUES (Polytech’Lille) Statistiques de base 1 / 48

Page 2: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèses

2 Régression linéaire

Julien JACQUES (Polytech’Lille) Statistiques de base 2 / 48

Page 3: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 3 / 48

Page 4: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Principe d’un test statistique

Un exemple1 Test H0 : µ = µ0 contre H1 : µ 6= µ0

2 Stat. de test T = X−µ0S√

n

∼H0tn−1 Student à n-1 degrés de liberté

3 α = 5%4 Zone de rejet W = {x : |t | = |x−µ0|

s√

n

> −tn−1,α2}

-4 -3 -2 -1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

α 2 2

α

α 1−α t t 2 2

5 calcul de t puis acceptation de H0 si t est entre les bornes, rejet

sinon

Julien JACQUES (Polytech’Lille) Statistiques de base 4 / 48

Page 5: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Principe d’un test statistique

Les étapes1 Identifier des hypothèses H0 (hyp. nulle, simple) et H1 (hyp. alternative,

composite)2 Définir un statistique de test T , dont la loi est différente sous H0 et

H1

3 Choisir un risque de première espèce α (5%, 10%...)4 Définir la zone de rejet W de H0, en fonction de H1 (test uni- ou

bilatéral) et de α

5 Calculer la valeur t de la statistique de test T

6 Conclure au rejet de H0 si t ∈ W où à son acceptation dans le cascontraire

Julien JACQUES (Polytech’Lille) Statistiques de base 5 / 48

Page 6: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Principe d’un test statistique

Les risques antagonistes❳❳❳❳❳❳❳❳

DécisionVérité

H0 H1

H0 conclusion correcte erreur de deuxième espèceH1 erreur de première espèce conclusion correcte

Table : Erreurs associés à un test

❳❳❳❳❳❳❳❳❳❳❳

DécisionVérité

H0 H1

H0 niveau de confiance 1 − α risque β

H1 risque α 1 − β

Table : Risques associés à un test

Julien JACQUES (Polytech’Lille) Statistiques de base 6 / 48

Page 7: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Principe d’un test statistique

La p-value p∗

plus petite valeur de α conduisant à rejeter H0

probabilité sous H0 d’observer une statistique de test aussiextrême (au sens de H1) que le t observé

probabilité de se tromper lorsqu’on rejette H0

Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0

p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon

Julien JACQUES (Polytech’Lille) Statistiques de base 7 / 48

Page 8: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Principe d’un test statistique

La p-value p∗

plus petite valeur de α conduisant à rejeter H0

probabilité sous H0 d’observer une statistique de test aussiextrême (au sens de H1) que le t observé

probabilité de se tromper lorsqu’on rejette H0

Exemple : test unilatéral H0 : µ = 0 contre H1 : µ > 0

p∗ = P(T > t) où T stat. de test et t sa valeur sur l’échantillon

Utilisation de la p-value p∗

si α > p∗ : rejet de H0

si α < p∗ : acceptation de H0Julien JACQUES (Polytech’Lille) Statistiques de base 7 / 48

Page 9: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 8 / 48

Page 10: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Typologie des tests

Tests de liaison entre variablesTester la liaison entre deux variables quantitatives : Test decorrélation

Tester la liaison entre deux variables qualitatives : Testd’indépendance du χ2

Tester la liaison entre une variable quantitative et une variablequalitative : ANOVA à 1 facteur

Tester la liaison entre une variable quantitative et K variablesqualitatives : ANOVA à K facteur

Tests de comparaison de populations indépendantesTest de comparaisons des variances de Fisher

Test de comparaisons des moyennes de Student

Julien JACQUES (Polytech’Lille) Statistiques de base 9 / 48

Page 11: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Typologie des tests - Logiciel R

Tests de liaison entre variablesTester la liaison entre deux variables quantitatives : fonctioncor.test

Tester la liaison entre deux variables qualitatives : fonctionchisq.test

Tester la liaison entre une variable quantitative et une variablequalitative : fonction aov

Tester la liaison entre une variable quantitative et K variablesqualitatives : fonction aov

Tests de comparaison de populations indépendantesTest de comparaisons des variances de Fisher : fonctionvar.test

Test de comparaisons des moyennes de Student : fonctiont.test

Julien JACQUES (Polytech’Lille) Statistiques de base 10 / 48

Page 12: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 11 / 48

Page 13: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de corrélation

Conditions d’application :

X et Y deux variables aléatoires quantitatives

HypothèsesH0 : ρX ,Y = 0 contre H1 : ρX ,Y 6= 0

Statistique de test

T =√

n − 2 RXY√1−R2

XY

∼H0tn−2 où RXY =

∑ni=1(Xi−X)(Yi−Y )√∑n

i=1(Xi−X )2∑n

i=1(Yi−Y )2est

l’estimateur du coefficient de corrélation

Décisionon rejette H0 sit > tn−2,1−α

2ou t < tn−2,α2

Julien JACQUES (Polytech’Lille) Statistiques de base 12 / 48

Page 14: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test d’indépendance du χ2

Conditions d’application :

X et Y deux variables aléatoires qualitatives à k et r modalitésnij : nombre d’observations ayant la modalité i de X et j de Y

ni. =∑r

j=1 nij et n.j =

∑ki=1 nij

nij ≥ 5

HypothèsesH0 : X et Y indépendantes contre H1 : X et Y dépendantes

Statistique de test

d2 =∑k

i=1∑r

j=1(nij−

ni.n.jn

)2

ni.n.jn

∼H0χ2(k−1)(r−1)

Décisionon rejette H0 sid2 > χ2

(k−1)(r−1)1−α

Julien JACQUES (Polytech’Lille) Statistiques de base 13 / 48

Page 15: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

ANOVA à 1 facteur

Conditions d’application :

X une variable quantitative, A un facteur qualitatif à K modalitéséchantillons grands (n ≥ 30) ou gaussiens (pour chaque modalité)variances homogènes

HypothèsesA influe-t-il X ?H0 : µ1 = . . . = µK = µ contre H1 : ∃1 ≤ i , j ≤ K t.q. µi 6= µj

Statistique de test

F =V 2

AK−1/

V 2R

n−K où

V2A =

1n

K∑

k=1

nk (Xk − X )2 est la variance expliquée par le facteur A

V 2R est la variance résiduelle

avec variance totale V 2T = V 2

A + V 2R

Julien JACQUES (Polytech’Lille) Statistiques de base 14 / 48

Page 16: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

ANOVA à 1 facteur

Présentation des résultats

Facteur Somme degrés de carré Fdes carrés liberté moyen

A SSA K − 1 SSA/(K − 1) F = SSA/(K−1)SSR/(n−K )

Résidu SSR n − K SSR/(n − K )

Total SST n − 1

ou SSA = nV 2A , SSR = nV 2

R et SST = nV 2T .

DécisionOn conclue à un effet de A (rejet de H0) si F > FK−1,n−K ,1−α

Julien JACQUES (Polytech’Lille) Statistiques de base 15 / 48

Page 17: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

ANOVA à 2 facteur

Conditions d’application :

X une variable quantitative, A et B deux facteurs qualitatifs à J etK modalités

échantillons grands (n ≥ 30) ou gaussiens (pour chaque croisementde modalités)

variances homogènes

HypothèsesLe facteur A a-t-il une influence sur X ?

Le facteur B ?

Et l’interaction entre les deux facteurs ?

Julien JACQUES (Polytech’Lille) Statistiques de base 16 / 48

Page 18: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

ANOVA à 2 facteur

Décomposition de la variance totale

SST = SSA + SSB + SSAB + SSR

avec

SST =J∑

j=1

K∑

k=1

njk∑

i=1

(Xijk − X...)2, SSA =

J∑

j=1

nj.(X.j. − X...)2, SSB =

K∑

k=1

n.k (X..k − X...)2,

SSAB =J∑

j=1

K∑

k=1

njk (X.jk − X.j. − X..k + X...)2, et SSR =

J∑

j=1

K∑

k=1

njk∑

i=1

(Xijk − X.jk )2

X.jk =1

njk

njk∑

i=1

Xijk , X..k =1

n.k

J∑

j=1

X.jk , X.j. =1

nj.

K∑

k=1

X.jk et X... =1n

J∑

j=1

K∑

k=1

njk∑

i=1

Xijk .

Julien JACQUES (Polytech’Lille) Statistiques de base 17 / 48

Page 19: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

ANOVA à 2 facteur

Présentation des résultatsFacteur Somme degrés de carré F

des carrés liberté moyen

A SSA J − 1 SSA/(J − 1) FA =SSA/(J−1)

SSR/(n−JK )

B SSB K − 1 SSB/(K − 1) FB =SSB/(K−1)

SSR/(n−JK )

Interaction AB SSAB (J − 1)(K − 1) SSAB/(K − 1)(J − 1) FAB =SSAB/(K−1)(J−1)

SSR/(n−JK )

Résidu SSR n − JK SSR/(n − JK )Total SST n − 1

DécisionOn conclue à un effet de A si FA > FJ−1,n−JK ,1−α

On conclue à un effet de B si FB > FK−1,n−JK ,1−α

On conclue à un effet de l’interaction entre A et B siFAB > F(K−1)(J−1),n−JK ,1−α

Julien JACQUES (Polytech’Lille) Statistiques de base 18 / 48

Page 20: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 19 / 48

Page 21: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de comparaisons des variances de Fisher

Conditions d’application :

échantillons gaussiens

HypothèsesH0 : σ1 = σ2 contre H1 : σ1 6= σ2

Statistique de test

F =

n1V21

n1−1

n2V22

n2−1

=S2

1S2

2∼H0

Fn1−1,n2−1 avec S21 > S2

2

Décision

on rejette H0 siS2

1S2

2> fn1−1,n2−1,1−α

Julien JACQUES (Polytech’Lille) Statistiques de base 20 / 48

Page 22: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de comparaisons des moyennes de Student

Conditions d’application :

échantillons grands (n ≥ 30) ou gaussiensvariances égales : σ2

1 = σ22

HypothèsesH0 : µ1 = µ2 contre H1 : µ1 6= µ2

Statistique de test

T = X1−X2−(µ1−µ2)√

n1V21 +n2V2

2n1+n2−2

(1

n1+ 1

n2

)∼H0

tn1+n2−2

Décisionon rejette H0 si

|x1 − x2| > −tn1+n2−2,α2

n1v21+n2v2

2n1+n2−2

(

1n1

+ 1n2

)

.

Julien JACQUES (Polytech’Lille) Statistiques de base 21 / 48

Page 23: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de comparaisons des moyennes de Student

Conditions d’application :

échantillons grands (n ≥ 30) ou gaussien

variances différentes : σ21 6= σ2

2

HypothèsesH0 : µ1 = µ2 contre H1 : µ1 6= µ2

Correction d’Aspin Welchil faut remplacer le nombre de degrés de liberté de la loi de Student(n1 + n2 − 2 lorsque les variances sont égales) par l’entier le plusproche de :

n =1

c2

n1−1 + (1−c)2

n2−1

où c =

v21

n1−1v2

1n1−1 +

v22

n2−1

Julien JACQUES (Polytech’Lille) Statistiques de base 22 / 48

Page 24: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de comparaisons des moyennes de Student - casapparié

Conditions d’application :

échantillons grands (n ≥ 30) ou gaussiens

échantillons dépendants (appariés) : chaque échantilloncorrespond à des mesures différentes des mêmes individus

Teston travaille sur la différence Di = X1i − X2i entre les 2 échantillons, eton test la nullité de la moyenne des Di :H0 : µ = 0 contre H1 : µ 6= 0

Julien JACQUES (Polytech’Lille) Statistiques de base 23 / 48

Page 25: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de comparaisons des moyennes de Student - casunilatéral

Conditions d’application :

échantillons grands (n ≥ 30) ou gaussiensvariances égales : σ2

1 = σ22 (sinon correction Aspin-Welch)

HypothèsesH0 : µ1 = µ2 contre H1 : µ1 > µ2

Statistique de test

T = X1−X2−(µ1−µ2)√

n1V21 +n2V2

2n1+n2−2

(1

n1+ 1

n2

)∼H0

tn1+n2−2

Décision

on rejette H0 si x1 > x2 − tn1+n2−2,α2

n1v21+n2v2

2n1+n2−2

(

1n1

+ 1n2

)

.

Julien JACQUES (Polytech’Lille) Statistiques de base 24 / 48

Page 26: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèses

2 Régression linéaire

Julien JACQUES (Polytech’Lille) Statistiques de base 25 / 48

Page 27: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Modélisation statistique

Les différents types de modélisationVariable à expliquer Variables explicatives Nom de l’analyse

1 quanti. 1 quanti. régression simple1 quanti. plusieurs quanti. régression multiple1 quanti. plusieurs quali. analyse de variance1 quanti. plusieurs quali. et quanti. analyse de covariance

Objectifsprédictifs

descriptifs : sélection des variables pertinentes, forme du modèle

Les étapesidentifier le problème → choix du modèle statistique

estimer les paramètres

évaluer la qualité de la modélisation obtenue

utiliser le modèle pour répondre à la question posée

Julien JACQUES (Polytech’Lille) Statistiques de base 26 / 48

Page 28: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 27 / 48

Page 29: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Le modèle de régression linéaire simple

Les données

Un échantillon (XiYi)i=1,n

variable à prédire : Y

variable explicative : X

si la liaison entre X et Y n’est pas linéaire, tester des transformations (log, puissance...)

Le modèle

Yi = β0 + β1Xi + ǫi où ǫi ∼ N (0, σ2) i.i.d

Écriture matricielle :

Y1...

Yn

=

1 X1...

...1 Xn

[

β0

β1

]

+

ǫ1...ǫn

Y = Xβ + ǫ

Julien JACQUES (Polytech’Lille) Statistiques de base 28 / 48

Page 30: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Le modèle de régression linéaire simple

Estimation des paramètresOn cherche β = (β0, β1) minimisant l’écart entre les valeurs préditesYi = β0 + Xiβ1 et les valeurs observées Yi :

minn

i=1

(Yi − β0 − Xiβ1)2

Les solutions sont

β0 = Y − β1X , β1 =SXY

S2X

.

où SXY = 1n−1

∑ni=1(Xi − X )(Yi − Y ) est l’estimateur de la covariance

de X et Y .

Julien JACQUES (Polytech’Lille) Statistiques de base 29 / 48

Page 31: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 30 / 48

Page 32: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Le modèle de régression linéaire multiple

Les donnéesUn échantillon (Xi1, . . . ,Xip,Yi)i=1,n

variable à prédire : Y

p variables explicatives : X1, . . . ,Xp

Le modèle

Yi = β0 +

p∑

j=1

βjXij + ǫi

où ǫi ∼ N (0, σ2) i.i.d

Y1...

Yn

=

1 X11 . . . X1p

......

...1 Xn1 . . . Xnp

β0

β1...βp

+

ǫ1...ǫn

(1)

Y = Xβ + ǫ (2)

Julien JACQUES (Polytech’Lille) Statistiques de base 31 / 48

Page 33: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Le modèle de régression linéaire multiple

Estimation des paramètresOn cherche β = (β0, β1, . . . , βp) minimisant l’écart entre les valeursprédites Yi = β0 +

∑pj=1 βjXij et les valeurs observées Yi :

minn

i=1

(Yi − β0 −p

j=1

βjXij)2

La solution est

β = (X′X)−1X′Y.

Julien JACQUES (Polytech’Lille) Statistiques de base 32 / 48

Page 34: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 33 / 48

Page 35: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Normalité des résidus

Dans le but de faire des tests sur le modèle de régression obtenus,nous avons fait l’hypothèse de normalité des résidus ǫi = yi − yi .

Test de normalitéIl existe des tests statistiques permettant de tester l’adéquation d’unesérie de données (ici les résidus) à une loi normale :

test de Shapiro-Wilk: fonction shapiro.test

Julien JACQUES (Polytech’Lille) Statistiques de base 34 / 48

Page 36: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Homoscédasticité des résidus

La technique d’estimation utilisée suppose que résidus ǫi = yi − yi ontune variance σ2 constante (ne dépendant pas de i).

Homoscédasticité des résidusPour vérifier cette hypothèse, on représente généralement les résidusen fonction des variables explicatives (ou des valeurs prédites), et onvérifie visuellement que la variance est homogène sur l’ensemble devariation de chaque variable explicative

représentation graphique

Julien JACQUES (Polytech’Lille) Statistiques de base 35 / 48

Page 37: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Test de non corrélation des résidus

La technique d’estimation utilisée suppose que les résidus sont noncorrélés.

Test de Durbin-WatsonLe test de Durbin-Watson permet de vérifier que les ǫi ne sont pascorrélés.Statistique de test :

d =

∑ni=2(ǫi − ǫi−1)

2∑n

i=1 ǫ2i

qui doit être proche de 2.

Julien JACQUES (Polytech’Lille) Statistiques de base 36 / 48

Page 38: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Analyse de variance de la régression

On teste l’apport du modèle de régression

HypothèsesH0 : β1 = . . . = βp = 0 contre H1 : ∃j : βj 6= 0

Statistique de testOn décompose la variance de Y en ||Y − Y||22

︸ ︷︷ ︸

SST

= ||Y − Y||22︸ ︷︷ ︸

SSReg

+ ||Y − Y||22︸ ︷︷ ︸

SSR

Source Somme degrés de carré Fdes carrés liberté moyen

Régression SSReg p MSReg = SSReg/p F = MSRegMSR

Erreur SSR n − p − 1 MSR = SSR/(n − p − 1)Total SST n − 1

Décisionon rejette H0 (la régression est valide) si F > fp,n−p−1,1−α

Julien JACQUES (Polytech’Lille) Statistiques de base 37 / 48

Page 39: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Analyse de variance de la régression

SST SSReg SSRvariance variance variancetotale expliquée résiduelle

Julien JACQUES (Polytech’Lille) Statistiques de base 38 / 48

Page 40: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Coefficient de détermination

Coefficient de détermination

Le coefficient de détermination R2 :

R2 =SSReg

SST

est un indicateur de la qualité du modèle de régression.Propriétés :

R2 ∈ [0,1]

dans le cas de la régression simple : R2 = ρ2XY

plus le nombre de variables est grand, plus R2 est grand

Julien JACQUES (Polytech’Lille) Statistiques de base 39 / 48

Page 41: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Coefficient de détermination ajusté

Coefficient de détermination ajusté

Le coefficient de détermination ajusté R2adj :

R2adj =

(n − 1)R2 − d

n − d − 1

est un indicateur de la qualité du modèle de régression, prenant encompte la complexité du modèle (nombre de variables).Propriétés :

R2adj ∈ [0,1]

plus R2adj est grand, meilleure est la régression

Julien JACQUES (Polytech’Lille) Statistiques de base 40 / 48

Page 42: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Tests de la nullité des paramètres du modèle

On peut également tester l’apport de chaque variable dans le modèle

HypothèsesH0 : βj = 0 contre H1 : βj 6= 0

Statistique de test

T =βj−βj

σβj

∼H0tn−p−1

Décisionon rejette H0 (et donc on enlève la variable du modèle) si|t | > tn−1,1−α

2.

Julien JACQUES (Polytech’Lille) Statistiques de base 41 / 48

Page 43: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 42 / 48

Page 44: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Prédiction

Pour une valeur x∗ = (1, x∗1 , . . . , x

∗p )

′ de X , la prévision de Y seradonnée par

y∗ = x∗′β. (3)

Un intervalle de confiance de niveau 1 − α pour la valeur y∗ seraconstruit à partir de cette prévision ponctuelle :

x∗′β ± tn−p−1,1−α/2σ√

1 + x∗′(X′X)−1x∗. (4)

Julien JACQUES (Polytech’Lille) Statistiques de base 43 / 48

Page 45: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Plan

1 Tests d’hypothèsesPrincipe d’un test statistiqueTypologie des tests statistiquesTests de liaison entre variablesTests de comparaison de populations indépendantes

2 Régression linéaireLa régression linéaire simpleLa régression linéaire multipleTests sur le modèle de régression linéairePrédictionDétection d’observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 44 / 48

Page 46: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Détection d’observations atypiques

Effet levier

L’effet levier hi mesure l’impact de Yi dans l’estimation Yi

hi =1n+

(Xi − X)2∑n

j=1(Xj − X )2.

Cet impact est directement lié à l’éloignement de l’observation Xi à lamoyenne des observations X .

effet levier hi grand ⇒ observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 45 / 48

Page 47: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Détection d’observations atypiques

Résidus

ǫi = Yi − Yi

Résidus normalisés/studentisés

ri =ǫi

Sǫ(i)

√1−hi

où Sǫ(i) =

n−2n−3 Sǫ − 1

n−3ǫ

2i

1−hi

|ri | > 2 ⇒ observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 46 / 48

Page 48: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Détection d’observations atypiques

effet levier ⇒ éloignement d’une observation à la moyenne

résidus normalisés ⇒ éloignement observation / prédiction

La distance de Cook synthétisant ces deux informations.

Distance de Cook

Di =

∑nj=1(Yj(i) − Yj)

2

2S2ǫ

=hi

2(1 − hi)r2i

où Yj(i) : estimation de Yj obtenue sans utiliser (Xi ,Yi).

Di > 1 ⇒ observations atypiques

Julien JACQUES (Polytech’Lille) Statistiques de base 47 / 48

Page 49: Statistique de base avec R Partie 2 : Test d'hypothèses et ...eric.univ-lyon2.fr/~jjacques/Download/Cours/Slides-Stat-de-Base-II.pdf · Tests de comparaison de populations indépendantes

Régression linéaire avec R

L’analyse

1 charger les données :>data=read.table(’filename.dat’,header=TRUE)

2 estimer le modèle :>modele=lm(y ∼ .,data=data)

3 tester la normalité des résidus :>shapiro.test(modele$residuals)

4 vérifier graphiquement l’homoscédasticité et la normalité des résidus, laprésence d’individus atypiques ... :plot(modele)

5 tester l’auto-corrélation des résidus (package lmtest) :>dwtest(modele)

6 analyser la qualité du modèle et l’apport de chaque variable :>summary(modele)

Julien JACQUES (Polytech’Lille) Statistiques de base 48 / 48