2006/2007 1
Plan du coursPlan du cours
1. Introduction2. Statistique descriptive3. Echantillonnage4. Calcul des probabilités et variables
aléatoires5. Inférence statistique6. Estimation7. Tests d’hypothèses8. Régression linéaire
2006/2007 2
IntroductionIntroduction
• Objectifs– Expliquer : Mettre en relation une
variable dépendante et plusieurs variables explicatives.
– Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives.
• Modèle linéaire– Généralisation de la régression simple
(une seule variable explicative).
2006/2007 3
ModèleModèle
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un
échantillon de n observations :
1 1 2 2 p py x x x
1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x x
1,2, ,i n
2006/2007 4
Exemple 1 – MBAExemple 1 – MBA
2006/2007 5
Exemple 2 – La QuintaExemple 2 – La Quinta
2006/2007 6
Exemple 2 Exemple 2 (suite)(suite)
2006/2007 7
ModèleModèle
• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,
exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un
échantillon de n observations :
1 1 2 2 p py x x x
1 1 1 2 2, , ,
i i ip i i i p ip iy x x y x x x
1,2, ,i n
2006/2007 8
Ecriture matricielleEcriture matricielle1 1 2 2
1, ,i i i p ip i
y x x x i n
y X
1 11 1
1
1 1
p
n n p
n n np
p n
p n
y x x
y X
y x x
Avec :
2006/2007 9
HypothèsesHypothèses
• H1:
• H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur .
• H3: Homoscédasticité :
0 1,2, ,i
E i n
2 , 0 , 1,2, ,i i j
Var Cov i j n
2006/2007 10
ExemplesExemples
1. MBA
2. La Quinta
1 2 3 41MBA GPA GMAT Work
0.47 0.06 0.01 0.09
MBA
GPA GMAT Work
2006/2007 11
ExemplesExemples
• Régression simple
• Régression polynomiale
1 2
1 2
2
1
py x
x x x
2 1
1 2 1
p
p py x x x
2006/2007 12
Variables indicatrices Variables indicatrices (0-1)(0-1)
1
2
3
4
note moyenne en 2ème candi
sexe 0 ,1
note moyenne en 1ère candi
ˆ1 si age 20, 0 sinon
ˆ1 si age 22, 0 sinon
y
x
x
x
x
€
1 1 2 2 3 3 4 4 5y x x x x
2006/2007 13
Estimation des Estimation des paramètresparamètres
• Principe des moindres carrés (MC) :
• Sous forme matricielle :
2
1 1 2 21
min n
i i i p ipbi
Q b y b x b x b x
2
Q b y Xb y Xb
y y Xb y b X Xb
1 2, , ,
pb b b b
2006/2007 14
Estimation des Estimation des paramètresparamètres
2 2 0dQ b
X y X X bdb
X X b X y
2
2
1
2 définie positive
ˆ
d Q bX X
db
X X X y
2006/2007 15
DéfinitionsDéfinitions
• Résidus
• Estimateur de 2
1 1 2 2
ˆ
ˆ ˆ ˆ
ˆ
i i i
i i i p ip
i i
r y x
y x x x
y y
2 2
1
1ˆ
n
ii
rn p
Valeur observée Valeur ajustée
2006/2007 16
• Comparaison de 2 modèles :
• Qualité du modèle M1 par rapport à M2 ?
Coefficient de Coefficient de déterminationdétermination
1 1 2 2
1
1:
2 :i i i p i
i i
M y x x
M y
2006/2007 17
• Ecart-type du terme d’erreur :
Coefficient de Coefficient de déterminationdétermination
22
1 1 11
2
1
222
2 11 1
1 ˆ ˆˆ1:
1
1 1ˆˆ2 :1 1
n
i i pi
n
ii
n n
i ii i
M y xn p
rn p
M y y yn n
2006/2007 18
• Mesure de qualité de M1 par rapport à M2 :
• Coefficient de détermination corrigé(« adjusted R-square »)
Coefficient de Coefficient de déterminationdétermination
2
21 21
22
2
1
1ˆ
1 11ˆ ( )
1
n
ii
n
ii
rn p
Ry y
n
2006/2007 19
• Interprétation :–
qualité M1 qualité M2
–
qualité M1 >> qualité M2
Coefficient de Coefficient de déterminationdétermination
2 2 2
1 2ˆ ˆ0R
2 2 2
1 2ˆ ˆ1R
2006/2007 20
• Autre mesure :
• Interprétation plus intuitive :
Coefficient de Coefficient de déterminationdétermination
2
2 1
2
1
1( )
n
ii
n
ii
rR
y y
2 2 2
1 1 1
ˆ ˆ ˆ( ) ( ) ( )n n n
i i i ii i i
y y y y y y
2
2 1
2
1
ˆ ˆ( ) ˆ
( )
n
iii
n
ii
i
y y Var yR
Var yy y
2006/2007 21
• Problème :– R2 augmente lorsque l’on ajoute une
variable, même non pertinente, dans le modèle.
• Tableau d’analyse de variance (ANOVA) :
Coefficient de Coefficient de déterminationdétermination
Source Somme des carrés
Degrés de liberté
Carrés moyens
Variables ex.
Résidus
Total
1p
n p
1n
2
1
n
ii
r 2
1
n
ii
r n p
2
1
( )n
ii
y y
2
1
( ) 1n
ii
y y n
2
1
ˆ ˆ( )n
ii
y y
2
1
ˆ ˆ( ) 1n
ii
y y p
2006/2007 22
PrévisionPrévision
• Prévision de la variable endogène y pour un jeu de valeurs x0 :
• Modèle linéaire :
• Erreur de prévision :
0 01 02 0, , ,
px x x x
0 1 01 2 02 0 0ˆ ˆ ˆ ˆˆ
p py x x x x
2
0 0 0 0avec 0,y x N
0 0y y
2006/2007 23
Erreur de prévisionErreur de prévision
• Moyenne :
• Variance :
0 0 0 0 0
0 0
ˆˆ
0 0
E y y E x x
x x
0 0 0 0
0 0
2
0 0
12 2
0 0
ˆˆ
ˆ
ˆ
Var y y Var x
Var x Var
x Cov x
x X X x
2006/2007 24
Intervalle de prévisionIntervalle de prévision
• A 95%, approximativement :
• Pour la moyenne de y0, à 95% :
12
0 0 0ˆ ˆ2 1x x X X x
12
0 0 0ˆ ˆ2x x X X x
0 0 0 0E y E x x
2006/2007 25
Exemple – La QuintaExemple – La Quinta
Number 3815Nearest 0,9Office space 476Enrollment 24,5Income 35Distance 11,2
Prévision 37,1
Intervalle de prévision25,448,8
Intervalle pour la moyenne33,041,2
Pas rentable !
2006/2007 26
Tests et intervalles de Tests et intervalles de confianceconfiance
• Hypothèse supplémentaire :
• Pour un paramètre :
iid
2
1, , 0,
nN
1
ˆ
ˆj j
j n p
jj
T tX X
2006/2007 27
Tests et intervalles de Tests et intervalles de confianceconfiance
• Test de nullité de j :
• Intervalle de confiance pour j :
0 1: 0 : 0
j jH H
0 ;1 2 si ou si P-value
j n pRH T t
1
;1 2ˆ ˆ
j n p jjt X X
2006/2007 28
Tests et intervalles de Tests et intervalles de confianceconfiance
• P-value :
2006/2007 29
Tests et intervalles de Tests et intervalles de confianceconfiance
• Test de l’ensemble du modèle :
• Test en F (ANOVA) :
0 1 2 1
1
: 0
: au moins un 0p
j
H
H
2
2
1
1
R pF
R n p
0 1; ;1 si ou si P-value
p n pRH F F
1p
x
2006/2007 30
ModélisationModélisation
• Vérification des hypothèses de base– Analyse des résidus– Analyse des valeurs extrêmes
• Sélection des variables explicatives– Comparaison de modèles– Méthodes de sélection
2006/2007 31
Analyse des résidusAnalyse des résidus
• Idée : les résidus devraient ne présenter aucune structure particulière.
• Graphiques :– Normalité des résidus,– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables
explicatives,– Résidus en fonction du temps (séries
chronologiques).
2006/2007 32
Analyse des résidusAnalyse des résidus
• Normalité du terme d’erreur ?– Représentation graphique de la
distribution des résidus :
2006/2007 33
Analyse des résidusAnalyse des résidus• Linéarité de la relation entre y et les
variables explicatives ?– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables explicatives.
2006/2007 34
Analyse des résidusAnalyse des résidus
• Homoscédasticité ?– Résidus en fonction des valeurs prédites.
– Remèdes :• Changement de variable (log y, …),• Moindres carrés pondérés…
Pas Ok : hétéroscédasticité Ok : homoscédasticité
2006/2007 35
Analyse des résidusAnalyse des résidus
• Corrélation entre erreurs ?– Pour une série chronologique,
autocorrélation d’ordre 1 :
– Statistique de Durbin-Watson :
1 1,
t tCorr
10
10
1ˆ2 1DW
2006/2007 36
Analyse des résidusAnalyse des résidus
• En cas d’autocorrélation :– Introduire yt-1 comme variable explicative
(autorégression),– Prendre les différences :
– Modéliser le terme d’erreur :
1t t t t ty y y x
1t t t
2,
iid
t tN O
2006/2007 37
Valeurs extrêmesValeurs extrêmes
• Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite…– Erreur d’encodage ?– Observation à ne pas inclure dans
l’échantillon ?– Cas extrême mais normal ?
• Identification :– Graphiquement,– A l’aide des résidus.
2006/2007 38
Valeurs extrêmes vs Valeurs extrêmes vs influentesinfluentes
• Valeurs influentes : ont une grande influence sur l’estimation des paramètres.
• Exemples :
outlier Avec et sans valeur influente
2006/2007 39
Exemples d’AscombeExemples d’Ascombe
4
5
6
7
8
9
10
11yA
2 4 6 8 10 12 14 16xA
Y = 3 + ,5 * X; R^2 = ,667
Graphe de régression
2
3
4
5
6
7
8
9
10
yB
2 4 6 8 10 12 14 16xB
Y = 3,001 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yC
2 4 6 8 10 12 14 16xC
Y = 3,002 + ,5 * X; R^2 = ,666
Graphe de régression
5
6
7
8
9
10
11
12
13
yD
6 8 10 12 14 16 18 20xD
Y = 3,002 + ,5 * X; R^2 = ,667
Graphe de régression
2006/2007 40
Sélection des variablesSélection des variables
• Variables explicatives doivent être pertinentes.
• Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.
2006/2007 41
Exemple 3 – MaisonsExemple 3 – Maisons
• Un agent immobilier veut essayer de prédire le prix de vente d’une maison.
• Variables explicatives potentielles :– Surface habitable,– Nombre de chambres,– Superficie du terrain.
• Données historiques sur 100 maisons vendues.
2006/2007 42
Sélection de variablesSélection de variables
• Variables explicatives pertinentes :– Tests individuels sur les paramètres .– Attention à la multicolinéarité.
• Principe de parcimonie :– Réduire le nombre de variables
explicatives le plus possible (interprétation du modèle).
• Méthodes de sélection.
2006/2007 43
Méthodes de sélectionMéthodes de sélection• « Backward elimination »
– Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0.
• « Forward selection »– Introduire progressivement les variables
explicatives les plus corrélées (corrélation partielle significative) avec y.
• « Stepwise selection »– Méthode « pas à pas » : combine « forward » et
« backward ».
• Exemple : La Quinta
Top Related