Chapitre 2: RÉGRESSION LINÉAIRE SIMPLE … · Modèle d’analyse de la variance: variables...

45
1 chapitre 2 MTH8302 - Analyse de régression et analyse de variance Chapitre 1-Introduction Modélisation statistique Modèles statistiques Étapes d’une analyse statistique Classification des modèles Chapitre 2-Simple Modèle LINÉAIRE SIMPLE Transformations et modèles linéarisables Modèles non linéaires Modèle Logistique Chapitre 3-Multiple – partie 1 Modèle de régression MULTIPLE Régression avec STATISTICA Exemple d’utilisation et interprétation Inférence pour modèle réduit Variables standardisées Méthodes de sélection de variables (model building) Critères de sélection de modèles Chapitre 4-Multiple – partie 2 Résidus, influence, validation croisée Multicolinéarité Régression biaisée ridge Régression sur composantes principales Variables explicatives catégoriques Chapitre 5-Multiple – partie 3 Régression : variables explicatives catégoriques Régression : modèles non linéaire Régression logistique: variable réponse Y binaire Régression : variable de réponse Y Poisson Modèles lin. généralisés: variable Y non normale Data Mining CART : Classification And Regression Trees Réseau de neurones MARS : Multivariate Adaptive Regression Splines Modèles d’analyse de la variance Chapitre 1 – chapitre 2 – chapitre 3 chapitre 4 – chapitre 5 Chapitre 2: RÉGRESSION LINÉAIRE SIMPLE Copyright © Génistat Conseils Inc. Montréal, Canada, 2017

Transcript of Chapitre 2: RÉGRESSION LINÉAIRE SIMPLE … · Modèle d’analyse de la variance: variables...

1chapitre 2

MTH8302 - Analyse de régression et analyse de variance

Chapitre 1-Introduction Modélisation statistique Modèles statistiques Étapes d’une analyse statistique Classification des modèles

Chapitre 2-Simple Modèle LINÉAIRE SIMPLE Transformations et modèles linéarisables Modèles non linéaires Modèle Logistique

Chapitre 3-Multiple – partie 1 Modèle de régression MULTIPLE Régression avec STATISTICA Exemple d’utilisation et interprétation Inférence pour modèle réduit Variables standardisées Méthodes de sélection de variables

(model building) Critères de sélection de modèles

Chapitre 4-Multiple – partie 2 Résidus, influence, validation croisée Multicolinéarité Régression biaisée ridge Régression sur composantes principales Variables explicatives catégoriques

Chapitre 5-Multiple – partie 3 Régression : variables explicatives catégoriques Régression : modèles non linéaire Régression logistique: variable réponse Y binaire Régression : variable de réponse Y Poisson Modèles lin. généralisés: variable Y non normale

Data Mining CART : Classification And Regression Trees Réseau de neurones MARS : Multivariate Adaptive Regression Splines

Modèles d’analyse de la varianceChapitre 1 – chapitre 2 – chapitre 3 chapitre 4 – chapitre 5

Chapitre 2: RÉGRESSION LINÉAIRE SIMPLE

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

X 1, X2, …, Z1, Z2 ,…: facteurs, variables contrôlées en expérimentationmode actif : données expérimentales

variables observées / mesurées en observationmode passif – données observationnelles

X1 X2. . .Xk

SYSTÈME /

PROCESSUS

erreur expérimentale = sources inconnues de variabilitéε ∼ (0, σ2)

réponse - sortie mesuréeY = φ(X) + ρ(Z) + ε

Objectif de ANALYSE STATISTIQUE : comprendre / prédire / optimiser SYSTÈME / PROCESSUS

TOUTE analyse statistique repose sur un MODÈLE- relation entre input X (fixe) Z (aléatoire) et output Y- connaissance de la structure des données:

plan de collecte des données / nature variables / rôle des variablestype d’influence des variables / unités statistiques (expérimentales)

ε

Z1 Z2. . .Zh

facteursfixes

facteursaléatoires

2Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

VARIABLES

RÔLEY : réponse , output

peut être: binaire (0, 1), multinomiale, continue, multidimensionnelle

X, Z : explicatives, régresseurs, input, fixes, aléatoires

NATUREX (fixes) : continues, catégoriquesZ (aléatoires) : continues, catégoriques

INFLUENCEX : affecte la centralité (moyenne) de Y : effets fixesZ : affecte la dispersion (variance) de Y : effets aléatoires

MODÈLES effets fixes aléatoires mixtes (fixes + aléatoires)

Y = f (X1, X2 , … , Xk ; β0 , β1 , β2 ,… )+ g (Z1, Z2, .., Zh ; σ12 , σ2

2, …) + ε

Objectif de ANALYSE STATISTIQUE : comprendre / prédire / optimiser SYSTÈME / PROCESSUS

3Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

ε ~ N(0, σ2)

4

Linéaire simple : Y = β0 + β1X1 + ε Régression multiple : Y = β0 + β1X1 + β2X2 + • • • + βkXk + ε Effets principaux + effets d’interaction :

Y = β0 + β1X1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • • + ε

Quadratiques (response surface avec facteurs quantitatifs ) Y = β 0 + β1X 1 + β2X2 + • • • + βkXk + β12X1X2 + β13X1X3 + • • • +

+ β11X12 + β22X2

2 + β33X32 + • • • + ε

Régression logistique : Y à valeurs catégoriques (oui / non) Régression PLS: nombre variables X > nombre d’observations (k > n) Modèle d’analyse de la variance: variables catégoriques A

codage à effets X = 0 / 1 / -1 selon les modalités de A Modèles avec 2 types de variables continues + catégoriques Mixtes: facteurs modalités fixes + facteurs modalités aléatoires Polynomial : Y = β0 + β1X + β2X2 + • • • + βkXk + ε

MODÈLES d’analyse de régression : X1, X2, …facteurs continus

chapitre 2

MTH8302

observations : Yi = φ (Xi1, Xi2 , … , Xik ; β0 , β1 , β2 , … ) + εi i = 1, 2,…, n

implicitement : une observation par unité (individu, sujet) statistiqueindépendance des Yi ?

ANALYSE STATISTIQUE : étapes

1. Spécification d’un modèle statistique

2. Estimation des paramètres du modèle

3. Décomposition de la variabilité : ANOVA

4. Tests d’hypothèses sur les paramètres

5. Analyse diagnostique des résidus

- vérification des hypothèses de base- identification d’observations influentes- transformation Y ? (si nécessaire)

6. Si nécessaire : itération des étapes 1 à 5

7. Optimisation de la réponse (s’il y a lieu)

8. Graphiques de la réponse

5chapitre 2

MTH8302 - Analyse de régression et d’analyse de variance

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

6

X-pression Y-epais ordre

3 14 43 12 33 13 84 10 24 9 124 11 145 9 65 10 155 11 76 9 106 8 56 10 17 8 97 9 117 7 13

Exemple : relation entre Y : épaisseur substratX : pression

Modèle Y = β0 + β1 x + ε ε ∼ N ( 0, σ2 )

Données ( x i , y i ) i = 1, 2, …, nÉtapes estimation des paramètres : β0 β1 σ2

décomposition de la variabilité := analyse de la variance= ANalysis Of VAriance = ANOVA

tests - intervalles de confiance

prédiction de Y et graphiques

validation du modèle: analyse résidus

Scatterplot (Sheet1 in ch11.stw 25v*36c)Y-epais = 15,5-1,1*x

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

X-pression

6

7

8

9

10

11

12

13

14

15

Y-ep

ais

Regression LinéaireSimple

Y = β0 + β1X1 + ε

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017 chapitre 2

Scatterplot of PRICE against AREAreg simple.sta in 2017-MTH8302-Exemples-REGRESSION.stw 19v*25c

PRICE = Lowess

60 80 100 120 140 160 180 200

AREA

3000

3500

4000

4500

5000

5500

6000

6500

7000

7500

8000

PRIC

E

Autre exemple : prix maisons vs superficie

chapitre 27

8

NOTATIONx = ∑ x i / n : moyenne de X y = ∑ y i / n : moyenne de YSPxy = ∑ (x i – x )( y i – y ) : somme des produits XYSSxx = ∑ (x i – x )2 : somme des carrés de XSSyy = ∑ (y i – y )2 = SStot = somme totale des carrés de Y

ESTIMATION principe des moindres carrés: minimiser S(β0 , β1 )

S(β 0 , β1 ) = ∑ ( y i - β 0 - β 1 x i )2 : écart par rapport à la droite

solution b1= β1 = SPxy / SSxx = ∑ ci yi où ci = (x i – x) / SSxx

b0 = β0 = y - b1 x

prédiction y = β0 + β1 x = y + b1 (x – x ) : droite de moindres carrésrésidu brut e i = y i - y isomme des carrés résiduels SSresid = ∑ e i

2 = ∑ ( y i - y i )2

carré résiduel moyen MSresid = SSresid / (n – 2 )estimation de σ2 σ2 = MSresid σ = ( MSresid )0.5

∑ci = 0 ∑ci2 = 1

chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + εthéorie

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

9

DÉCOMPOSITION DE LA VARIABILITÉ : tableau d’analyse de la varianceSSreg = ∑ ( y i – y )2 = ( SPxy )2 / SSxx = β1

2 SSxx

= somme des carrés de régression (modèle, expliquée par X )

ÉQUATION FONDAMENTALE DE DÉCOMPOSITIONsomme de carrés (SS) : SStot = SSreg + SSresid

variabilité : totale = modèle + résiduelledegrés de liberté (DDL) : n – 1 = 1 + ( n - 2 )

TABLEAU D’ANALYSE VARIANCE : modèle de régression linéaire simple SOURCE DDL SS MS = SS / DDL F-ratio p-valeur

régression 1 SSreg MSreg = SSreg /1 F0 = MSreg/ MSresid P( F ≥ F0)

résiduelle n – 2 SSresid MSresid = SSresid /( n - 2)

= σ2 ------ ------

totale n – 1 SStot -------

R2 = SSreg / SStot : coefficient de détermination 0 ≤ R2 ≤ 1 : fraction variabilité Y expliquée par X

r = ± ( R2 ) 0.5 : coefficient de corrélation linéaire entre Y et X

remarque : le signe de r ( + ou - ) sera celui de β1chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + ε

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

théorie

TEST et INTERVALLE de CONFIANCE

résultat (β 1 - β 1 ) / ( σ / SSxx0.5 ) ~ T n – 2 (loi de Student)

applications

(a) test de β1 H0 : β1 = 0 vs H1 : β1 ≠ 0rejeter H0 au seuil α si │ β1 │(SSxx)0.5 / σ > t n – 2, 1-α/2

remarque : le test est équivalent au test F du tableau ANOVA

(b) intervalle de confiance de β1 : β1 ± t n – 2, 1 – α/2 σ / (SSxx)0.5

coefficient de confiance = 1 - α

(c) INTERVALLE de CONFIANCE : MOYENNE de Y à X = x*

E (Y│X = x* ) : β0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ (1/n) + (( x* – x )2 /SSxx) ] 0.5

remarque : un intervalle de confiance pour β0 s’obtient avec x* = 0(d) INTERVALLE de PRÉDICTION : VALEUR de Y à X = x*

Y │ X = x* : β 0 + β1 x* ± t n – 2, 1 – α/ 2 σ [ 1 + ( 1/n) + (( x* – x )2 / SSxx)] 0.5

remarque : ne pas confondre (c) et (d)

10chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + εthéorie

11chapitre 2

Graphics…… 2D Scatterplots

Statistics……Multiple Linear Regression

Mise en œuvre avec STATISTICA

pas d’analyse de la variancepas d’analyse de résidus

variables continues seulement

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

12chapitre 2

Statistics … Advanced Linear/Nonlinear Models… General Linear Models et General Regression Models

Régression linéaire avec STATISTICA

13chapitre 2

Mise en œuvre avec STATISTICA

14

Scatterplot (Sheet1 in ch11.stw 25v*36c)Y-epais = 15,5-1,1*x

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

X-pression

6

7

8

9

10

11

12

13

14

15

Y-ep

ais

Exemple : épaisseur substrat

analyse avec le module

MULTIPLE REGRESSIONde STATISTICA

r = - 0.8355 R2 = 0.698

F(1,13)=30.057 p < 0.00011

b* Std. Err.b =

β

Std. Err.b t(13) p-level

Intercept 15.500 1.0426 14.867 0.0000

X-pression - 0.8355 0.1524 - 1.100 0.2006 -5.482 0.0001

b1 = β1

b0 = β0

coefficientsen variablescentrées - réduites

test de

signification

chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + ε résultats

15

14 12.2 1.8

12 12.2 -0.2

13 12.2 0.8

10 11.1 -1.1

9 11.1 -2.1

11 11.1 -0.1

9 10.0 -1.0

10 10.0 0.0

11 10.0 1.0

9 8.9 0.1

8 8.9 -0.9

10 8.9 1.1

8 7.8 0.2

9 7.8 1.2

7 7.8 -0.8

SS DDL MS F p-valeur

Regress. 36.3 1 36.3 30.06 0.00011

Residuel 15.7 13 1.21

Total 52 14

Tableau d’analyse de la variance

Predicted vs. Residual ScoresDependent variable: Y-epais

7 8 9 10 11 12 13

Predicted Values

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

Res

idua

ls

95% confidence

observés prédits résidus

chapitre 2

Exemple : épaisseur substrat

Regression Linéaire Simple : Y = β0 + β1X1 + ε résultats

16

VALIDATION du MODÈLE : ANALYSE des RÉSIDUS• résidus VS valeurs prédites y : variance constante ?• résidus VS variable explicative X : variance constante ?• résidus VS l’ordre des données : dépendance ?• résidus sur échelle gaussienne : valeurs aberrantes?

Raw residuals vs. X-pressionCorrelation: r = ******

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

X-pression

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

Raw

resi

dual

s

95% confidence

Scatterplot

0 2 4 6 8 10 12 14 16

ORDRE

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

resid

u

Résidus standardisész i = e i / σ z = 0 écart type (z) = 1

Résidus studentisés internesti = e i / σ [ (n – 1) /n) + ( xi – x )2 / SSxx ] 2

remarque : l’analyse des résidus peut se faire avec les

- résidus / résidus standardisés / résidus studentisés internes

- résidus studentisés externes (‘deleted’)

- préférablement avec les résidus studentisés externes

chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + ε résultats

Normal Probability Plot of Residuals

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

Residuals

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

Expe

cted

Nor

mal

Val

ue

Raw Residuals vs. Deleted Residuals

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Raw Residuals

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

Dele

ted

resi

dual

s

17

Yobservé

Yprédit

résiduE

écart typeY prédit

lim infY

lim supY

lim infMoy Y

lim sufMoy Y

1 14 12.2 1.8 0.49 9.60 14.8 11.1 13.3

2 12 12.2 -0.2 0.49 9.60 14.8 11.1 13.3

3 13 12.2 0.8 0.49 9.60 14.8 11.1 13.3

4 10 11.1 -1.1 0.35 8.61 13.6 10.3 11.9

5 9 11.1 -2.1 0.35 8.61 13.6 10.3 11.9

6 11 11.1 -0.1 0.35 8.61 13.6 10.3 11.9

7 9 10.0 -1.0 0.28 7.55 12.5 9.4 10.6

8 10 10.0 -0.0 0.28 7.55 12.5 9.4 10.6

9 11 10.0 1.0 0.28 7.55 12.5 9.4 10.6

10 9 8.9 0.1 0.35 6.41 11.4 8.1 9.7

11 8 8.9 -0.9 0.35 6.41 11.4 8.1 9.7

12 10 8.9 1.1 0.35 6.41 11.4 8.1 9.7

13 8 7.8 0.2 0.49 5.20 10.4 6.7 8.9

14 9 7.8 1.2 0.49 5.20 10.4 6.7 8.9

15 7 7.8 -0.8 0.49 5.20 10.4 6.7 8.9

Int. prédiction à 95%

Int. confiance à 95%

chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + ε résultats

18

Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15,5-1,1*x; 0,95 Conf.Int.

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

X_PRESSI

6

7

8

9

10

11

12

13

14

15

Y_EP

AIS

X_PRESSI:Y_EPAIS: y = 15,5 - 1,1*x; r = -0,8355; p = 0,0001;r2 = 0,6981

Scatterplot (CH11-v5.sta 25v*36c)Y_EPAIS = 15,5-1,1*x; 0,95 Pred.Int.

2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5

X_PRESSI

6

7

8

9

10

11

12

13

14

15

Y_EP

AIS

X_PRESSI:Y_EPAIS: y = 15,5 - 1,1*x; r = -0,8355; p = 0,0001;r2 = 0,6981

intervalle de confiance :

moyenne de Y

intervalle de prédiction de Y

chapitre 2

Regression Linéaire Simple : Y = β0 + β1X1 + ε résultats

Scatterplot of PRICE against AREAreg simple.sta in 2017-MTH8302-Exemples-REGRESSION.stw 19v*25c

PRICE = Lowess

60 80 100 120 140 160 180 200

AREA

3000

3500

4000

4500

5000

5500

6000

6500

7000

7500

8000

PRIC

E

60 80 100 120 140 160 180 200

AREA

3000

3500

4000

4500

5000

5500

6000

6500

7000

7500

8000

PRIC

E

intervalle de confiance à 95% de la moyenne du prix

PRICE = 153,8133+40,7086*x

60 80 100 120 140 160 180 200

AREA

3000

3500

4000

4500

5000

5500

6000

6500

7000

7500

8000

PRIC

E

PRICE = 153,8133+40,7086*x

intervalle de prédiction à 95% du prix

Predicted vs. Residual ScoresDependent variable: PRICE

3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 8000

Predicted Values

-300

-200

-100

0

100

200

300

400

500

600

Resid

uals

0,95 Conf.Int.

Residuals vs. Deleted ResidualsDependent variable: PRICE

-300 -200 -100 0 100 200 300 400 500 600

Residuals

-300

-200

-100

0

100

200

300

400

500

600

700De

lete

d Re

sidu

als

0,95 Conf.Int.

Autre exemple : prix maisons vs superficie

chapitre 219

20

JUSTESSE du MODÈLE: avec observations répétées de Y à des valeurs de X

Estimation de σ2 : - calculée avec le modèle ajusté (Droite de Moindres Carrés)- dépend du modèle postulé

question : peut – on estimer σ2 indépendamment du modèle postulé (y = β 0 + β 1 x + ε ) ?réponse : oui, si on a au moins 2 observations de Y à au moins 3 valeurs distinctes de Xutilisation : tester le manque d’ajustement (maj) du modèle postulé

X

Y Données somme carrés ddlx 1 y 11 y 12 …. y 1 n1 ( n1 - 1 ) s 1

2 n1 – 1

x 2 y 21 y 22 …. y 2 n2 ( n2 – 1 ) s 22 n2 - 1

….. …. ….. ..... ….. …………. ……….

x k y k1 y k2 …. y k nk ( nk - 1 ) s k2 nk - 1

SSE = ∑ (n j - 1) s j2 n - k

Nouvelle décomposition de la somme totale de carrés totale

avant : SStot (totale) = SSreg (modèle ) + SSresid (résiduelle)

maintenant : SStot = SSreg + SSerpu (erreur pure ) + SSmaj (manque d’ajustement)deg. liberté : n – 1 = 1 + ( n – k ) + ( k – 2 )

remarque : SSmaj est calculée par différence SSmaj = SSresid – SSerpu

Y = β0 + β1 x

chapitre 2

RÉGRESSION LINÉAIRE SIMPLE : observations répétées Théorie

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

21

tableau d’analyse de la variance modifié SOURCE DDL SS MS = SS / DDL F-ratio p-valeurmodèle 1 SSreg MSreg = SSreg/1 F1 = MSreg / MSresid p1= P( F ≥ F1 )

résiduelle n – 2 SSresid MSresid = SSresid/(n-2) ---------- ----------

LOF k – 2 SSmaj MSmaj = SSmaj/(k -2) F2 = MSmaj / MSerpu p2= P( F ≥ F2 )

pure n – k SSerpu MSerpu = Sserpu / (n – k) = σ2 ----------- -----------

Totale n – 1 SStot -----------

test du manque d’ajustement du modèle linéaireH0M : E(Y│x) = β 0 + β 1 x versus H1 : non H0M

test : rejeter H0 au seuil α si F2 > F n – k , k – 2 , 1 – α

remarques

- on rejette H0M si p2 < α (seuil)- si on rejette H0M , il faut postulé une autre équation ( modèle ) que la droite

- si on ne rejette pas H0M , on conserve le tableau d’analyse de la variance (p 6)

chapitre 2

RÉGRESSION LINÉAIRE SIMPLE : observations répétées Théorie

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

22

Scatterplot (Ch11-v5.sta 26v*36c)Y_STRENT = -26,32+0,498*x

95 100 105 110 115 120 125 130 135 140 145

X_DEG

15

20

25

30

35

40

45

50

Y_ST

RENT

Exemple : expérience avec un facteur X contrôlé X = température (degrés F) Y = résistance matériau

données: X = 100 : Y = 20 – 25 - 23 – 27 – 19 X = 110 : Y = 25 – 29 – 31 – 30 – 27

X = 120 : Y = 36 – 37 – 29 – 40 – 33 X = 130 : Y = 35 – 39 – 31 – 42 – 44

X = 140 : Y = 43 – 40 – 36 – 48 – 47

R = 0.879 R2 = 0.773 F(1,23)=78.323 p < 0.000

b* Std.Error b Std

Errorr t(23) p-level

Interct -26.320 6.799 -3.87 0.0007

X_DEG 0.879 0.099 0.498 0.056 8.85 0.0000

ANOVA SS DF MS F p-level

Regress. 1240.02 1 1240.02 78.323 0.0000

Residual 364.14 23 15.832

Total 1604.16 24

chapitre 2

RÉGRESSION LINÉAIRE SIMPLE : observations répétées

23

3.35 22.82.41 28.44.18 35.05.26 38.24.97 42.8

x s y100

110

120

130

140

SSerpu = 4 (3,352 + 2,412 + … + 4,972)

= 347,6 avec 4*5 = 20 ddl

SSmaj = SSresid – SSerpu = 364,14 – 347,60= 16,54 avec 23-20 = 3 ddl

MSmaj = 16,54 / 3 = 5,51

MSerpu = SSerpu / 20 = 17,38

F2 = 5,51 / 17,38 = 0,32

modèle linéaire OK : pas rejeté

chapitre 2

RÉGRESSION LINÉAIRE SIMPLE : observations répétées

Exemple: expérience avec un facteur X contrôlé X = température (degrés F) Y = résistance matériau

données: X = 100 : Y = 20 – 25 - 23 – 27 – 19 X = 110 : Y = 25 – 29 – 31 – 30 – 27

X = 120 : Y = 36 – 37 – 29 – 40 – 33 X = 130 : Y = 35 – 39 – 31 – 42 – 44

X = 140 : Y = 43 – 40 – 36 – 48 – 47

24

TRANSFORMATIONS pour stabiliser la variance : Y’ = h( Y )

Cas lien σ2 = var(Y) et μ = moy(Y) transformation Y’

Y ~ Poisson σ2 α μ Y’ = Y0.5

Y ~ Binomiale σ2 α μ ( 1 - μ ) Y’ = arcsin(Y0.5)

plusieurs ordres de σ2 α μ2 Y’ = log( Y )grandeurs pour Yautres cas: transformation Box-Cox Y’ = Y λ - 2 ≤ λ ≤ 2

λ = ?

chapitre 2

RÉGRESSION LINÉAIRE SIMPLE : analyse résidus

DÉFICIENCES DÉTECTÉES à l’analyse de résiduscorrectifs et transformations

- rendre la variance plus constante (stabilisation de la variance)

- obtenir une distribution gaussienne pour le terme d’erreur

- transformer certains modèles non linéaires en modèles linéaires

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

25

Régression logistique : Y à 2 valeurs catégoriques (oui/non) (0, 1) d

exp (β0 + β1x) linéarisation: log (Y/(1-Y)) = β0 + β1x 1 + exp (β0 + β1 X)

figure a figure b figure c figure d

fonction logistique

X X X X

1Y YY

chapitre 2

RÉGRESSION SIMPLE : transformations

Y =

TRANSFORMATIONS sur X ou Y pour rendre linéaire certains modèlesmodèle originel transformation modèle linéaire figure

Y = β0 Xβ1 X’ = ln(X) Y’= ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ a

Y = β0 exp ( β1 X ) X’ = X Y’ = ln(Y) β0’ = ln(β0) Y’ = β0’ + β1 X’ b

Y = 1 / ( β0 + β1 X ) X’ = X Y’ = 1 / Y Y’ = β0 + β1 X’ c

0

Y

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

26chapitre 2

PATIENT DAYS PROGNOSIS

P1 2 54

P2 5 50

p3 7 45

p4 10 37

p5 14 35

p6 19 25

p7 26 20

p8 31 16

p9 34 18

p10 38 13

p11 45 8

p12 52 11

p13 53 8

p14 60 4

p15 65 6

Scatterplot of PROGNOSIS against DAYSPatients.sta in Exemples REGRESSION-analyses.stw 2v*15c

PROGNOSIS = 56,6651*exp(-0,038*x)

-10 0 10 20 30 40 50 60 70

DAYS

0

10

20

30

40

50

60

PRO

GN

OSI

S

Y = β0 exp (β1X)

Scatterplot of PROGNOSIS against DAYSPatients.sta in Exemples REGRESSION-analyses.stw 2v*15c

PROGNOSIS = 46,4604-0,7525*x

-10 0 10 20 30 40 50 60 70

DAYS

0

10

20

30

40

50

60

PRO

GN

OSI

S

Graphics … 2D Scatterplots

RÉGRESSION SIMPLE : transformations

Y = β0 + β1X

Exemple: patients.staDAYS number of days that each patient

was hospitalizedPROGNOSIS index of the prognosis for

long-term recoverylarger values reflect a better prognosis

chapitre 2

Nonlinear Estimation

Fixed Nonlinear Regression:transformations programmées

RÉGRESSION non linéaire avec Statistica

27

28chapitre 2

Exemple: patients.sta avec Fixed Nonlinear Regression

Correlations (Patients.sta in Exemples REGRESSION-analyses.stw)Variable DAYS PROGNOSIS V1**2 V1**3 LN-V1 V2**2 V2**3 LN-V2DAYSPROGNOSISV1**2V1**3LN-V1V2**2V2**3LN-V2

1,000000 -0,941053 0,968107 0,914647 0,919686 -0,858993 -0,786973 -0,977280-0,941053 1,000000 -0,833385 -0,742322 -0,982535 0,976196 0,934715 0,9491810,968107 -0,833385 1,000000 0,985486 0,806789 -0,715873 -0,630328 -0,9376090,914647 -0,742322 0,985486 1,000000 0,718699 -0,613618 -0,528271 -0,8805200,919686 -0,982535 0,806789 0,718699 1,000000 -0,980910 -0,958517 -0,910681-0,858993 0,976196 -0,715873 -0,613618 -0,980910 1,000000 0,988570 0,864646-0,786973 0,934715 -0,630328 -0,528271 -0,958517 0,988570 1,000000 0,793656-0,977280 0,949181 -0,937609 -0,880520 -0,910681 0,864646 0,793656 1,000000

identification de la

transformation

la plus utile avec la

matrice de corrélation

RÉGRESSION SIMPLE : transformations

29chapitre 2

Predicted vs. Observed ValuesDependent variable: LN-V3

1,4 1,6 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2

Predicted Values

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

Obs

erve

d Va

lues

0,95 Conf.Int.

Scatterplot of PROGNOSIS against DAYSScatterplot of PROGNOSIS againstDAYS

Patients.sta in Exemples REGRESSION-analyses.stw 2v*15cPROGNOSIS = 56,6651*exp(-0,038*x)

-10 0 10 20 30 40 50 60 70

DAYS

0

10

20

30

40

50

60

PRO

GN

OSI

S

RÉGRESSION SIMPLE : transformations

30chapitre 2

Si Y = 0 ou 1 peut-on faire de la régression?Réponse: oui , régression logistique

tableau 3 : réorganisation

X nsurvit

ndécès

ntotal

p_décès

1 1,35 13 0 13 0,0000

2 1,60 19 0 19 0,0000

3 1,75 67 2 69 0,0290

4 1,85 45 5 50 0,1000

5 1,95 71 8 79 0,1013

6 2,05 50 20 70 0,2857

7 2,15 35 31 66 0,4697

8 2,25 7 49 56 0,8750

9 2,35 1 12 13 0,9231

total 308 127 435

Exemple : burns.sta

tableau 1 : données

patient X_log(surf+1) Y

1 1,35 0……………………………….

34 1,75 1……………………………….

434 2,35 0435 2,35 1

Y = 0 si survit= 1 si décès

n = 435 adultes

traités pour des

brulures au 3ième

degré en fonction de

X = log(surface +1)

de brulure

Line Plot of p_décès

0 1 2 3 4 5 6 7 8 9 10-0,2

0,0

0,2

0,4

0,6

0,8

1,0

p_décès

tableau 2: résumé(sans perte d’info)

id X Y nombre1 1,35 0 132 1,35 1 03 1,60 0 194 1,60 1 05 1,75 0 676 1,75 1 27 1,85 0 458 1,85 1 59 1,95 0 7110 1,95 1 811 2,05 0 5012 2,05 1 2013 2,15 0 3514 2,15 1 3115 2,25 0 716 2,25 1 4917 2,35 0 118 2,35 1 12

p_décès= n_décès / n_total

RÉGRESSION SIMPLE : modèle logistique

3 méthodes d’ajustement- Linéarisation- Nonlinear estimation- GLZ

31chapitre 2

fonction logistique

π(x) = exp(α + βx)/(1 + exp(α + βx))

- courbe en forme sigmoïdale- 0 ≤ π(x) ≤ 1 …. probabilités- si x tends vers - ∞ π(x) tend vers 0- si x tends vers ∞ π(x) tend vers 1- si x = - α/β alors π(x) = 0,5

et la pente de f(x) vaut β/4

graphiques de la fonction logistique

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

f1 f2 f3 f4

f(x) =exp(a + bx) / ( 1 + exp(a + bx))

f1: a = -4 b = 0,4f2: a = -8 b = 0,4f3: a = -12 b = 0,6f4: a = -20 b = 1,0

Prob(Y = 1 si X = x) = π(x) = exp(α + βx)/(1 + exp(α + βx))

Prob(Y = 0 si X = x) = 1 – π(x) = 1/(1 + exp(α + βx))

log[π(x) /(1- π(x))] = α + βx

log[π(x) /(1- π(x))] = logit (π(x))

π(x) / (1 - π(x)): rapport des cotes(odd ratio)

RÉGRESSION SIMPLE : modèle logistique

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

32chapitre 2

Interprétation du paramètre β

logit(π(x)) = log[π(x) /(1- π(x))] = α + βx

logit(π(x+1)) = log[π(x+1) /(1- π(x+1))] = α + β(x+1) = α + βx + β

β = logit(π(x+1)) - logit(π(x))

= log {[π(x+1) /(1- π(x+1))] / π(x) /(1- π(x))]}

= log { odds (x +1) / odds(x) }

eβ = odds (x +1) / odds(x) = odds ratio (ratio des cotes)

accroissement de la probabilité que Y = 1

si x augmente de 1

RÉGRESSION SIMPLE : modèle logistique

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

33chapitre 2

2 possibilités pour le calcul des prédictionsajustement par linéarisationéquations linéaires – cas traité ici

ajustement par estimation non linéaireéquations non linéaires – page suivante

i X pdécès

logit(p)(obs)

logit(p)(pred)

p décès(pred)

1 1,35 0 indéfini -7,816 0,00042 1,60 0 Indéfini -5,248 0,00533 1,75 0,0290 -3,540 -3,708 0,02354 1,85 0,1000 -2,197 -2,670 0,06215 1,95 0,1013 -2,183 -1,640 0,15386 2,05 0,2857 -0,916 -0,621 0,33297 2,15 0,4697 -0,092 0,406 0,57818 2,25 0,8750 2,10 1,434 0,79009 2,35 0,9231 2,485 2,461 0,9117

logit(p) = ln[ p/(1-p) ]

logit(0) n‘est pas défini

régression de logit(p)(obs) sur Xcas logit(p)(obs) défini i = 3, 4,.., 7logit(p)(pred) = -21,68 + 10,27*X = u

utilisation de l’équation obtenuepour tous les cas i = 1, 2,…,7

p_pred = exp (u) / (1 + exp(u))

RÉGRESSION SIMPLE : modèle logistiqueTableau

Line Plot of multiple variablesSpreadsheet17 10v*9c

1,35 1,60 1,75 1,85 1,95 2,05 2,15 2,25 2,35-0,2

0,0

0,2

0,4

0,6

0,8

1,0

p_obs

p_pred

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

34chapitre 2

RÉGRESSION logistique : ajustement par estimation non linéaire

Exemple : burns.sta

tableau 1 : données

patient X_log(surf+1) Y YC

1 1,35 0 1…………………………………….

34 1,75 1 0…………………………………….

434 2,35 0 1435 2,35 1 0

Model: Logistic regression (logit)

nombre de 0 : 308 casnombre de 1 : 127 cas

Max likelihood

α β

Estimation - 23,73 11,15

Model: Logistic regression (logit)

1,2 1,4 1,6 1,8 2,0 2,2 2,4

X

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2y=exp(-23,727 + (11,1498)*x)/(1+exp(-23,727 +(11,1498*x)

35chapitre 2

RÉGRESSION logistique : ajustement par estimation non linéaire

Y - Parameter estimates (Burns all.sta)Modeled probability that Y = 0

EffectLevel ofEffect

Column Estimate StandardError

InterceptXScale

1 23,7271 2,3579732 -11,1498 1,125685

1,0000 0,000000

X vs. YY = exp(23,727 + (-11,1498)*X)/(1 + exp(23,727 + (-11,1498)*X))

1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5

X

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

OBS Pred.

X vs. YcY = exp(-23,727 + (11,1498)*X)/(1 + exp(-23,727 + (11,1498)*X))

OBS Pred.

1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5

X

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Yc = 1 - Y

remarque sur le codage employé par Statistica (page suivante)

chapitre 2Copyright © Génistat Conseils Inc.Montréal, Canada, 2014

Modèle logistique : remarque sur le codage employé par Statistica

RESPONSE CODES FOR 0 / 1 response variables (source : Help de Statistica)

When selecting (or specifying via syntax) response codes for binomial response variables (e.g., for logit models), the two selected values (numeric codes or text values) are recoded for the analysis, so that the first code that is specified will be recoded to 1, and the second value will be recoded to 0.For example, if you specified two text values No and Yes, then the first value (No) will be recoded for the analysis to 1, and the parameter estimates can be interpreted with respect to the probability of responding with No; so, if in such an analysis a positive parameter estimate is found for a particular predictor variable x¸ then it means that the more of x the greater is the likelihood of obtaining the response No.

Note that the default coding for binomial response variables in the Nonlinear Estimation module may not be the same as that performed in GLZ. One way to verify the particular coding that was performed is to review the spreadsheet of the predicted responses on the Resid 1 tab of the results dialog; that spreadsheet will report in the first column the recoded values (0 or 1) of the response variable.Codes for dep. var. Logit and probit regression models, in a sense, predict probabilities underlying the dichotomous dependent variable, and these methods will produce predicted (expected) values in the range between 0 and 1(for details, see Common Nonlinear Regression Models).

If the dependent variable is not coded in this way, that is, as 0 and 1, then you must specify the respective codes in the Codes for dep. var. boxes. To do this, double-click on this field (or press the F2 button on your keyboard) to display the variable dialog box or simply type in the two codes.As the data are read, the dependent variable will then be transformed so that all values that match the first code become 0 (zero), and all values that match the second code become 1.

36

RÉGRESSION SIMPLE : estimation non linéaire

Modèledose X - response Y (en %)

response = β0 (1 - 1 / [1+(dose / β2)**β1]non linéarisableβ0 valeur à saturationβ2 concentration quand Y = 50%β1 pente function

XDOSE

YRESPONSE

1 0,52 2,33 3,44 24,05 54,76 82,17 94,88 96,29 96,4

Pharmacologie.sta : estimation réponse à une dose de médicament

Model: Response = b0 - b0/(1+(Dose/b2)**b1)y=(99,54) - (99,54) / (1+(x / (4,799)) ** (6,76)

8))

0 1 2 3 4 5 6 7 8 9 10

DOSE

-20

0

20

40

60

80

100

120

chapitre 237

Model: Response = b0 - b0/(1+(Dose/b2)**b1)y=(99,54)-(99,54)/(1+(x/(4,799))**(6,76)

8))

0 1 2 3 4 5 6 7 8 9 10

DOSE

-20

0

20

40

60

80

100

120

38chapitre 2

RÉGRESSION SIMPLE : estimation non linéaire

Model is: Response = b0 - b0/(1+(Dose/b2)**b1)

r Observ ed Predicted Residuals123456789

0,500 0,0025 0,49752,300 0,2669 2,03313,400 3,9845 -0,584524,000 22,4756 1,524454,700 56,6077 -1,907782,100 81,5184 0,581694,800 92,3411 2,458996,200 96,4906 -0,290696,400 98,1416 -1,7416

Response = b0 - b0/(1+(Dose/b2)**b1)Loss: (OBS-PRED)**2Final loss: 20,1880R= 0,99932Variance explained: 99,865%

N=9 b0 b2 b1

EstimateStd.Err.

t(6)-95%CL

+95%CL

p-v alue

99,54 4,80 6,761,57 0,05 0,4363,33 95,13 15,8095,69 4,68 5,71

103,39 4,92 7,81

0,00 0,00 0,00

modélisation non linéaire :

généralement desétudes statistiques confirmatoirescar on a un modèle de départ

chapitre 239

logiciel JMP

chapitre 2

Courbes sigmoid: Logistic, Gompertz

Croissance/décroissance exponentielle: Exponentiel, Bi-exponentiel, mechanique

Modèles sommet: Gauss, Lorentz

Modèles pharmacocinétiques: 1-compartiment dose oralel, dose Bolus 2-compartimentBi-exponentielle 4P

Michaelis Menten: cinétique biochimique

40

Modèles non linéaires

chapitre 241

Courbes sigmoid: Logistic, Gompertz

Croissance/décroissance exponentielle: Exponentiel, Bi-exponentiel, mechanique

Modèles sommet: Gauss, Lorentz

Modèles pharmacocinétiques: 1-compartiment dose oralel, dose Bolus 2-compartimentBi-exponentielle 4P

Michaelis Menten: cinétique biochimique

Modèles non linéaires

chapitre 242

logiciel JMP

chapitre 243

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

Critères pour la comparaison de modèles

AIC : critère d’information Akaike AIC = - 2 log(L) + 2kL : vraisemblance maximisée k : nombre de paramètres du modèleLa déviance du modèle (- 2 log(L)) est pénalisée par 2 fois le nombre de paramètres kL’AIC compromis entre le biais (qui diminue avec k ) et la parcimonie

(décrire les données avec le plus petit nombre de paramètres)

AICc : Akaike Information Criterion corrigé AICc = AIC + [ 2 k(k - 1) / (n - k + 1) ]modification du critère Akaide pour des petits échantillons (n < 40k). On doit avoir n ≥= k + 2. AICc est préférable à AIC pour de petits échantillons AICc permet de comparer 2 modèles ou plus.bon modèle : AICc petit

AICc WeightNormalisation des valeurs AICc pour avoir une somme de 1probabilité que le modèle est le meilleur parmi les modèles ajustés.modèle ayant AICc Weight la plus près de 1 est le modèle ayant le meilleur ajustement.

BIC : Bayesian Information Criterion BIC = -2 * LL + k * log(n)mesure de comparaison entre modèles bon modèle : BIC petit

SE : Sum of Square of Errors = différences entre les valeurs observées et les valeurs prédites.MSE : Mean Square Error valeur moyenne de SSE.RMSE : Root Mean Square Error racine carrée de MSE.R-Square proportion de la variation de la variable de réponse expliquée par le modèle.

bon modèle : R-Square près de 1

Remarque critère AIC ou AICc est préférable à R-square car il tient en compte le nombre de paramètres

chapitre 244

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

Exemple : décroissance phosphates Scatterplot of Y1_pHsat against X7_CaOx10000

Phosphates.sta in 2017-MTH8302-Exemples-REGRESSION.stw 2v*80cY1_pHsat = Distance Weighted Least Squares

-1 0 1 2 3 4 5 6 7

X7_CaOx10000

8,8

9,0

9,2

9,4

9,6

9,8

10,0

10,2

10,4

10,6

10,8

11,0

11,2

11,4

Y1_p

Hsa

t

chapitre 245

Copyright © Génistat Conseils Inc.Montréal, Canada, 2017

Exemple : décroissance phosphates calculs avec JMP