Frédéric Bertrand Master 1 MCB –...

44
Frédéric Bertrand Master 1 MCB – 2009/2010

Transcript of Frédéric Bertrand Master 1 MCB –...

Page 1: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

Frédéric Bertrand Master 1 MCB – 2009/2010

Page 2: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

Références « Analyse de régression appliquée »

de Y. Dodge et V. Rousson, auxéditions Dunod, 2004.

« Régression non linéaire et applications » de A. Antoniadis, J. Berruyer, R. Carmona, éditions Economica, 1992.

Frédéric Bertrand - Master 1 MCB 2009/2010 2

Page 3: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

IntroductionBut : rechercher une relation stochastique qui

lie deux ou plusieurs variablesDomaines : Physique, chimie, astronomie Biologie, médecine Géographie Economie …

Frédéric Bertrand - Master 1 MCB 2009/2010 3

Page 4: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

1. Relation entre deux variables

Considérons X et Y deux variables.Exemple : la taille (X) et le poids (Y)But : savoir comment Y varie en fonction de XDans la pratique : Échantillon de n individus Relevé de la taille et du poids pour l’individu i

Tableau d’observations ou données pairées.

Frédéric Bertrand - Master 1 MCB 2009/2010 4

Page 5: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

1. Relation entre deux variables

Frédéric Bertrand - Master 1 MCB 2009/2010 5

72,61

1907

7

74,1185

66

6

67,41805

67,41754

72,71703

68,51652

57,91601

PoidsTailleObservations

0

10

20

30

40

50

60

70

80

155 160 165 170 175 180 185 190 195

Taille (cm)Po

ids

(kg)

Page 6: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

2. Relation déterministe Dans certains cas, la relation est exacte. Exemples : X en euros, Y en dollars X distance ferroviaire, Y prix du billet.

Y = f(X)où f est une fonction déterminée.Exemples pour f : fonctions linéaires, fonctions

affines...

Frédéric Bertrand - Master 1 MCB 2009/2010 6

Page 7: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

2. Relation déterministe

Remarque importante :Nous utiliserons le terme de fonction « linéaire »pour désigner une fonction « affine »

où β0 et β1 sont des réels fixés.

Frédéric Bertrand - Master 1 MCB 2009/2010 7

XXf 10)( ββ +=

Page 8: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

2. Relation déterministe

Exemple : X en Celsius, Y en FarenheitY=32 + 9/5 X.

Ici nous avons en identifiant : β0 = 32 et β1 = 9/5.

Souvent nous savons que la relation entre X et Y estlinéaire mais les coefficients sont inconnus.

Frédéric Bertrand - Master 1 MCB 2009/2010 8

Page 9: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

2. Relation déterministe

En pratique comment faisons-nous ?

Échantillon de n données Vérifier que les données sont alignées.

Si ce cas est vérifié, alors nous avons : un modèlelinéaire déterministe.

Frédéric Bertrand - Master 1 MCB 2009/2010 9

Page 10: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

2. Relation déterministe

Si ce cas n’est pas vérifié, alors nous allons chercher :la droite qui ajuste le mieux l’échantillon, c’est-à-dire nous allons chercher un modèle linéaire nondéterministe.

Les n observations vont permettre de vérifier si ladroite candidate est adéquate.

Frédéric Bertrand - Master 1 MCB 2009/2010 10

Page 11: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastiqueLa plupart des cas ne sont pas desmodèles linéaires déterministes !(la relation entre X et Y n’est pas exacte)

Exemple : X la taille et Y le poids.A 180 cm peuvent correspondre plusieurs poids : 75 kg, 85 kg, …Les données ne sont plus alignées. Pour deux poids identiques, nous avons deux taillesdifférentes.

Frédéric Bertrand - Master 1 MCB 2009/2010 11

Page 12: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastiqueUne hypothèse raisonnable : X et Y sont liés

Dans l’exemple précédent : plus un individu estgrand, plus il est lourd

: est une variable qui représente le comportementindividuel.

Frédéric Bertrand - Master 1 MCB 2009/2010 12

εββ ++= XY 10

ε

Page 13: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Exemple :70 individus qui sont répartis de la façon suivante : 10 individus/taille 7 tailles (de 160 à 190 cm, pas de 5 cm).

Frédéric Bertrand - Master 1 MCB 2009/2010 13

Page 14: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Frédéric Bertrand - Master 1 MCB 2009/2010 14

010203040

5060708090

155 160 165 170 175 180 185 190 195

taillepo

ids

65,816515

66,316514

58,516513

69,816512

68,516511

57,716010

62,91609

58,01608

67,11607

64,51606

66,81605

56,81604

63,31603

58,91602

57,91601

PoidsTailleObservations

Page 15: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Commentaires : Plusieurs Y pour une même valeur de X.

Modèle linéaire déterministe inadéquat. Cependant Y augmente quand X augmente.

Modèle linéaire stochastiqueenvisageable.

Frédéric Bertrand - Master 1 MCB 2009/2010 15

Page 16: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Définition du modèle linéaire stochastique :

: moyenne de Y mesurée sur tous les individuspour lesquels X vaut x.

Frédéric Bertrand - Master 1 MCB 2009/2010 16

xxY 10)( ββµ +=

)(xYµ

Page 17: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Remarques : Comme ε, μY (x) n’est ni observable, ni calculable. Pour calculer μY (x), il faudrait recenser tous les

individus de la population.

Frédéric Bertrand - Master 1 MCB 2009/2010 17

Page 18: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Dans la pratique :Nous estimons la moyenne théorique μY (x) par lamoyenne empirique de Y définie par :

Frédéric Bertrand - Master 1 MCB 2009/2010 18

∑=

=n

ii xy

nxy

1)(1)(

Page 19: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Frédéric Bertrand - Master 1 MCB 2009/2010 19

010203040

5060708090

155 160 165 170 175 180 185 190 195

Taille

Poid

s m

oyen

Retour à l’exemple :

77,28190

71,58185

71,76180

69,29175

68,34170

66,16165

61,39160

PoidsTaille

Page 20: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

La droite que nous venons de tracer s’appelle :la droite de régression.

X et Y ne jouent pas un rôle identique.X explique Y X est une variable indépendante

(ou explicative) et Y est une variable dépendante(ou expliquée).

Frédéric Bertrand - Master 1 MCB 2009/2010 20

Page 21: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

En analyse de régression linéaire :

xi est fixéyi est aléatoirela composante aléatoire d’un yi est le εi

correspondant.

Frédéric Bertrand - Master 1 MCB 2009/2010 21

Page 22: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Pour l’instant, la droite de régression est inconnue.

Tout le problème est d’estimer β0 et β1 à partir d’unéchantillon de données.

Frédéric Bertrand - Master 1 MCB 2009/2010 22

Page 23: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Choix des paramètres : droite qui approche le mieux les données

introduction de et qui sont des estimateurs de β0 et de β1.

L’estimation de la droite de régression :

Frédéric Bertrand - Master 1 MCB 2009/2010 23

0β̂ 1̂β

xxy 10ˆˆ)(ˆ ββ +=

Page 24: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Remarques : est un estimateur de μY(x) Si le modèle est bon, est plus précis que

Frédéric Bertrand - Master 1 MCB 2009/2010 24

∑=

=n

ii xy

nxy

1)(1)(

)(ˆ xy)(ˆ xy

Page 25: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastiqueLorsque x = xi, alors , c’est-à-dire :

est appelée la valeur estimée par le modèle.

Frédéric Bertrand - Master 1 MCB 2009/2010 25

yi

iyxy ˆ)(ˆ =

ii xy 10ˆˆˆ ββ +=

Page 26: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Ces valeurs estiment les quantités inobservables :

par les quantités observables :

Frédéric Bertrand - Master 1 MCB 2009/2010 26

iii yye ˆ−=

iii xy 10 ββε −−=

Page 27: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

3. Relation stochastique

Ces quantités ei = les résidus du modèle. La plupart des méthodes d’estimation : estimer la

droite de régression par une droite qui minimise une fonction de résidu.

La plus connue : la méthode des moindres carrés.

Frédéric Bertrand - Master 1 MCB 2009/2010 27

Page 28: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

∑∑

=

==

−−=

−=

n

iii

n

iii

n

ii

xy

yye

1

210

1

2

1

2

)ˆˆ(

)ˆ(

ββ

Frédéric Bertrand - Master 1 MCB 2009/2010 28

Méthode : Définir des estimateurs qui minimisentla somme des carrés des résidus

Page 29: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

Les estimateurs sont donc les coordonnées duminimum de la fonction à deux variables :

Cette fonction est appelée la fonction objectif.

4. Méthode des moindres carrés

210

110 )(),( i

n

ii xyfz ββββ −−== ∑

=

Frédéric Bertrand - Master 1 MCB 2009/2010 29

Page 30: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

∑ −−−=∂∂ )(2 10

0ii xyz ββ

β

Frédéric Bertrand - Master 1 MCB 2009/2010 30

Les estimateurs correspondent aux valeurs annulantles dérivées partielles de cette fonction :

∑ −−−=∂∂ )(2 10

1iii xyxz ββ

β

Page 31: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

0)(2 10 =−−− ∑ ii xy ββ

Frédéric Bertrand - Master 1 MCB 2009/2010 31

Les estimateurs sont les solutions du système :

Soient :

0)(2 10 =−−− ∑ iii xyx ββ

∑∑ ∑ += 210

ˆˆ )2.4( iiii xxyx ββ

∑∑ += ii xny 10ˆˆ )1.4( ββ

Page 32: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

Nous notons :

ny

nx

x ii ∑∑ == yet

xy 10ˆˆ ββ −=

Frédéric Bertrand - Master 1 MCB 2009/201032

D’après (4.1), nous avons :

Page 33: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

A partir de (4.2), nous avons :

21

02

1

ˆ

ˆˆ

xnyxnyx

xnyxx

ii

iii

β

ββ

+−=

−=

∑∑∑

221ˆ

xnxyxnyx

i

ii

−−

=∑∑β

Frédéric Bertrand - Master 1 MCB 2009/201033

Ainsi nous obtenons :

Page 34: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

Comme nous avons :

222)(

))((

xnxxx

yxnyxyyxx

ii

iiii

−=−

−=−−

∑∑∑∑

∑∑

−−−

= 21 )())((ˆ

xxyyxx

i

iiβ

Frédéric Bertrand - Master 1 MCB 2009/201034

Ainsi nous obtenons :

Page 35: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

Dans la pratique, nous calculons

xxy 10ˆˆ)(ˆ ββ +=

Frédéric Bertrand - Master 1 MCB 2009/201035

01ˆ puis ˆ ββ

Nous obtenons une estimation de la droite derégression, appelée la droite des moindrescarrés :

Page 36: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

4. Méthode des moindres carrés

Coefficients de la droite de régression :pente=0,442 ; ordonnée à l’origine=-8,012

0

10

20

30

40

50

60

70

80

90

155 160 165 170 175 180 185 190 195

Poid

s m

oyen

Taille

Frédéric Bertrand - Master 1 MCB 2009/201036

Page 37: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquéeBut d’un modèle de régression linéaire :expliquer une partie de la variation de la variableexpliquée Y.La variation de Y vient du fait de sa dépendance à lavariable explicative X.

Variation expliquée par le modèle.

Frédéric Bertrand - Master 1 MCB 2009/2010 37

Page 38: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquéeDans l’exemple « taille-poids », nous avons remarquéque lorsque nous mesurons Y avec une même valeur deX, nous observons une certaine variation sur Y.

Variation inexpliquée par le modèle.

Frédéric Bertrand - Master 1 MCB 2009/2010 38

Page 39: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

Variation totale de Y= Variation expliquée par le modèle

+ Variation inexpliquée par le modèle

Frédéric Bertrand - Master 1 MCB 2009/2010 39

Page 40: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

y

Frédéric Bertrand - Master 1 MCB 2009/2010 40

Pour mesurer la variation de Y : nous introduisons

)ˆ()ˆ()( iiii yyyyyy −+−=−

Différence expliquée par le modèle

Différence inexpliquée par le modèle ou résidu du

modèle

Page 41: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

∑∑∑ −+−=− 222 )ˆ()ˆ()( yyyyyy iii

Frédéric Bertrand - Master 1 MCB 2009/2010 41

Pourquoi la méthode des moindres carrés ? Un propriété remarquable : elle conserve une telle

décomposition en considérant la somme des carrés de ces différences :

Page 42: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

∑∑∑ −+−=− 222 )ˆ()ˆ()( yyyyyy iii

Frédéric Bertrand - Master 1 MCB 2009/2010 42

Somme des carrés totales

(SCtot)

Somme des carrés dues à la

régression

(SCreg)

Somme des carrés des

résidus

(SCres)

Page 43: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

Mesure du pourcentage de la variation totaleexpliquée par le modèle :Introduction d’un coefficient de détermination

tot

RSCSC

totaleVariation expliquéeVariation reg2 ==

Frédéric Bertrand - Master 1 MCB 2009/2010 43

Page 44: Frédéric Bertrand Master 1 MCB – 2009/2010irma.math.unistra.fr/~fbertran/enseignement/Master1_FC... · 2010-06-02 · Références « Analyse de régression appliquée » de Y.

5. Variation expliquée et inexpliquée

Quelques remarques : R2 est compris entre 0 et 1. R2 =1 : cas où les données sont parfaitement alignées

(comme c’est le cas pour un modèle déterministe). R2 =0 : cas où la variation de Y n’est pas due à la

variation de X. Les données ne sont pas du tout alignées.

Plus R2 est proche de 1, plus les données sont alignées sur la droite de régression.

Frédéric Bertrand - Master 1 MCB 2009/2010 44