1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun...

51
1 Analyse discriminante Michel Tenenhaus

Transcript of 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun...

Page 1: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

1

Analyse discriminante

Michel Tenenhaus

Page 2: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

2

Les objectifs de l’analyse discriminante

• Étude d’un tableau IndividusVariables : Les individus sont décrits par p variables X1,…, Xp.

• Les individus sont répartis en k classes selon les modalités d’une variable qualitative Y.

• Rechercher des variables discriminantes Zh, combinaisons linéaires des Xj, non corrélées entre elles, et séparant au mieux les k classes (analyse factorielle discriminante).

• Affecter une nouvelle observation à une des classes en fonction de ses valeurs de X observées (analyse discriminante bayesienne).

Page 3: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

3

Exemple : Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures moyennes journalières

• SOLEIL : Durée d’insolation

• CHALEUR : Nombre de jours de grande chaleur

• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

Page 4: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

4

Les données 3064 1201 10 361 2

3000 1053 11 338 3

3155 1133 19 393 2

3085 970 4 467 3

3245 1258 36 294 1

3267 1386 35 225 1

3080 966 13 417 3

2974 1189 12 488 3

3038 1103 14 677 3

3318 1310 29 427 2

3317 1362 25 326 1

3182 1171 28 326 3

2998 1102 9 349 3

3221 1424 21 382 1

3019 1230 16 275 2

3022 1285 9 303 2

3094 1329 11 339 2

3009 1210 15 536 3

3227 1331 21 414 2

3308 1366 24 282 1

3212 1289 17 302 2

3361 1444 25 253 1

3061 1175 12 261 2

3478 1317 42 259 1

3126 1248 11 315 2

3458 1508 43 286 1

3252 1361 26 346 2

3052 1186 14 443 3

3270 1399 24 306 1

3198 1259 20 367 1

2904 1164 6 311 3

3247 1277 19 375 1

3083 1195 5 441 3

3043 1208 14 371 3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Température Soleil Chaleur Pluie Qualité

Page 5: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

5

Analyse univariéeTempérature

Measures of Association

.799 .639Température * QualitéEta Eta Squared 121111N =

Qualité

MédiocreMoyenBon

Te

mp

éra

ture

3600

3500

3400

3300

3200

3100

3000

2900

2800

Report

Température

3306.36 11 92.06

3140.91 11 100.05

3037.33 12 69.34

3157.88 34 141.18

Qualité1

2

3

Total

Mean N Std. Deviation

2 Between Groups Sum of SquaresRapport de corrélation =

Total Sum of Squares

ANOVA Table

420067.4 2 210033.704 27.389 .000

237722.1 31 7668.456

657789.5 33

(Combined)Between Groups

Within Groups

Total

Température * Qualité

Sum ofSquares df Mean Square F Sig.

Page 6: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

6

Analyse univariéeSoleil

Report

Soleil

1363.64 11 80.31

1262.91 11 71.94

1126.42 12 88.39

1247.32 34 126.62

QualitéBon

Moyen

Médiocre

Total

Mean N Std. Deviation

ANOVA Table

326909.1 2 163454.535 25.061 .000

202192.4 31 6522.335

529101.4 33

(Combined)Between Groups

Within Groups

Total

Soleil * Qualité

Sum ofSquares df Mean Square F Sig.

Measures of Association

.786 .618Soleil * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBon

So

leil

1600

1500

1400

1300

1200

1100

1000

900

Page 7: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

7

Analyse univariéeChaleur

Report

Chaleur

28.55 11 8.80

16.45 11 6.73

12.08 12 6.30

18.82 34 10.02

QualitéBon

Moyen

Médiocre

Total

Mean N Std. Deviation

ANOVA Table

1646.570 2 823.285 15.334 .000

1664.371 31 53.689

3310.941 33

(Combined)Between Groups

Within Groups

Total

Chaleur * Qualité

Sum ofSquares df Mean Square F Sig.

Measures of Association

.705 .497Chaleur * QualitéEta Eta Squared

121111N =

Qualité

MédiocreMoyenBonC

ha

leu

r

50

40

30

20

10

0

12

Page 8: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

8

Analyse univariéePluie

Report

Pluie

305.00 11 52.29

339.64 11 54.99

430.33 12 104.85

360.44 34 91.40

QualitéBon

Moyen

Médiocre

Total

Mean N Std. Deviation

Measures of Association

.594 .353Pluie * QualitéEta Eta Squared

ANOVA Table

97191.170 2 48595.585 8.440 .001

178499.2 31 5758.039

275690.4 33

(Combined)Between Groups

Within Groups

Total

Pluie * Qualité

Sum ofSquares df Mean Square F Sig.

121111N =

Qualité

MédiocreMoyenBon

Plu

ie

800

700

600

500

400

300

200

100

Page 9: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

9

Analyse factorielle discriminanteRecherche de la première variable discriminante

• On recherche une première variable discriminante centrée

séparant au mieux les k classes.

• On recherche des a1j conduisant à une variable Z1 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z1 sur le facteur Y définissant les classes.

• On choisit comme normalisation une variance intra-classes

de Z1 égale à 1.

p

1 10 1j jj 1

Z a a X

Page 10: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

10

Calcul des variables discriminantessur les données d’origine

Canonical Discriminant Function Coefficients

.009 .000

.007 -.005

-.027 .128

-.006 .006

-32.876 2.165

Température

Soleil

Chaleur

Pluie

(Constant)

1 2

Function

Unstandardized coefficients

Z1 = .009*Température + .007*Soleil - .027*Chaleur - .006*Pluie - 32.876

Page 11: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

11

NormalisationChaque X est centrée et normalisée par l’écart-typecommun aux classes (racine-carrée du carré moyenintra-classes) :

1

Température 3157.88X

7668.456

2

Soleil 1247.32X

6522.335

3

Chaleur 18.82X

53.689

4

Pluie 360.44X

5758.039

Page 12: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

12

Calcul des variables discriminantes sur les données normalisées

Standardized CanonicalDiscriminant Function Coefficients

.750 -.004

.547 -.430

-.198 .935

-.445 .469

Température

Soleil

Chaleur

Pluie

1 2

Function

Z1 = .750*X1 + .547*X2 - .198*X3 - .445*X4

Page 13: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

13

Analyse de la variance de Z1 sur la qualité

Measures of Association

.875 .766Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité

Eta Eta Squared

ANOVA Table

101.645 2 50.822 50.822 .000

31.000 31 1.000

132.645 33

(Combined)Between Groups

Within Groups

Total

Discriminant Scoresfrom Function 1 forAnalysis 1 * Qualité

Sum ofSquares df Mean Square F Sig.

121111N =

Qualité

MédiocreMoyenBon

Dis

crim

ina

nt

Sco

res

fro

m F

un

ctio

n 1

fo

r A

na

lysi

s 1

6

4

2

0

-2

-4

-6

Report

Discriminant Scores from Function 1 for Analysis 1

2.12 11 1.19

.15 11 .89

-2.08 12 .90

.00 34 2.00

QualitéBon

Moyen

Médiocre

Total

Mean N Std. Deviation

Page 14: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

14

Analyse factorielle discriminanteRecherche de la deuxième variable discriminante

• On recherche une deuxième variable discriminante centrée et non corrélée à Z1

séparant au mieux les k classes.

• On recherche des a2j conduisant à une variable Z2 ayant un F ou, de manière équivalente, un 2 maximum dans l’analyse de la variance de Z2 sur le facteur Y définissant les classes.

• On choisit comme normalisation une variance intra-classes

de Z2 égale à 1.

p

2 20 2 j jj 1

Z a a X

Page 15: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

15

Analyse de la variance de Z2 sur la qualité

Report

Discriminant Scores from Function 2 for Analysis 1

.27 11 .96

-.51 11 1.02

.22 12 1.02

.00 34 1.03

QualitéBon

Moyen

Médiocre

Total

Mean N Std. Deviation

Measures of Association

.349 .122Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité

Eta Eta Squared

ANOVA Table

4.296 2 2.148 2.148 .134

31.000 31 1.000

35.296 33

(Combined)Between Groups

Within Groups

Total

Discriminant Scoresfrom Function 2 forAnalysis 1 * Qualité

Sum ofSquares df Mean Square F Sig.

121111N =

Qualité

MédiocreMoyenBon

Dis

crim

ina

nt

Sco

res

fro

m F

un

ctio

n 2

fo

r A

na

lysi

s 1

3

2

1

0

-1

-2

-3

Page 16: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

16

Les deux variablesdiscriminantes

-.88 -.87

-2.33 -.09

-.99 .83

-2.73 .25

.74 1.72

2.23 .48

-2.75 1.11

-2.53 .24

-3.73 2.11

1.13 1.37

2.17 -.04

-.36 1.36

-2.02 -.54

1.55 -.53

-.73 -.79

-.31 -1.80

.34 -1.56

-2.45 .80

.79 .16

2.41 -.46

1.14 -.82

3.54 -.93

-.55 -1.10

3.18 1.95

.21 -1.28

4.12 1.22

1.47 .22

-1.68 .23

2.17 -.49

.35 .13

-2.10 -1.49

.87 -.05

-1.09 -.98

-1.18 -.34

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Variablediscriminante

Z1

Variablediscriminante

Z2

Page 17: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

17

Le premier plan discriminant

Variable discriminante Z1

6420-2-4

Va

ria

ble

dis

crim

ina

nte

Z2

3

2

1

0

-1

-2

Qualité

Group Centroids

Médiocre

Moyen

Bon

34

33

32

31

30

29

28 27

26

25

24

2322

21

20

19

18

17

16

15

1413

12

11

10

9

8

7

6

5

4

3

2

1

Page 18: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

18

Carte des qualités

Symbols used in territorial map

Symbol Group Label------ ----- --------------------

1 1 Bon 2 2 Moyen 3 3 Médiocre * Indicates a group centroid

Territorial Map

Canonical DiscriminantFunction 2 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 6.0 31 31 31 31 31 31 4.0 31 31 31 31 31 31 2.0 3221 32 21 32 21 32 21 32 21 * 32 21 * .0 32 21 32 21 32 * 21 32 21 32 21 32 21 -2.0 32 21 32 21 32 21 32 21 32 21 32 21 -4.0 32 21 32 21 32 21 32 21 32 21 32 21 -6.0 32 21 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0

Canonical Discriminant Function 1

Les droites frontièressont les médiatricesdes segments joignantles centres de gravitédes groupes

Page 19: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

19

Variable discriminante Z1

6420-2-4

Var

iabl

e di

scrim

inan

te

Z2

3

2

1

0

-1

-2

Qualité

Group Centroids

Médiocre

Moyen

Bon

34

33

32

31

30

29

28 27

26

25

24

2322

21

20

19

18

1716

151413

12

11

10

9

8

7

6

5

4

3

2

1

Premier plan discriminant et carte des qualités

Une nouvelle observation est classée dans le groupe pour lequel la distance entre l’observation et le centre du groupe est la plus faible.

Page 20: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

20

Température

Chaleur

Pluie

*** *

*

*g2* *

* **

*g3* *

*

*

** *

*

**

*

*

* **

*

g1* **

**

Premier plan discriminant et territoire des qualités

g*

Z1

Z2

g3 ****

g2 ****

g1 ****

Le premier plan discriminant contientles centres de gravité des groupes

*A

*B

Affecter une observation A à la classe la plus proche (gh) est équivalent à affecter la projection B à la classe la plus proche.

Page 21: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

21

Distance carrée au centre de gravité dans le plan (Z1,Z2)

Case Summariesa

10.32 1.19 2.62

19.89 6.28 .16

10.02 3.11 1.55

23.49 8.83 .42

4.00 5.35 10.22

.06 5.34 18.65

24.39 11.00 1.24

21.66 7.74 .21

37.63 21.93 6.31

2.19 4.51 11.62

.10 4.34 18.16

7.33 3.78 4.28

17.81 4.70 .58

.97 1.98 13.75

9.24 .84 2.84

10.18 1.87 7.24

6.52 1.14 9.05

21.21 8.49 .48

1.79 .86 8.21

.62 5.13 20.62

2.15 1.08 11.43

3.45 11.66 32.85

9.00 .83 4.06

3.94 15.26 30.66

6.06 .59 7.49

4.90 18.80 39.42

.43 2.28 12.57

14.41 3.87 .16

.58 4.09 18.53

3.14 .45 5.92

20.91 6.00 2.91

1.65 .74 8.79

11.91 1.76 2.42

11.27 1.79 1.11

34 34 34

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

NTotal

DBON DMOYEN DMEDIOCRE

Limited to first 100 cases.a.

Page 22: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

22

Prévision de la qualité pourune nouvelle année (obs. 35)

Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300

Prévoir sa qualité.

Page 23: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

23

Prévision de laqualité pourune nouvelleannée (obs. 35)

Case Summariesa

1 -.88255 -.87154

2 -2.32546 -.09422

3 -.99486 .83296

4 -2.72686 .24724

5 .74360 1.72117

6 2.23089 .48432

7 -2.74699 1.10879

8 -2.53383 .23602

9 -3.73088 2.11364

10 1.13041 1.36843

11 2.17473 -.04282

12 -.35666 1.36423

13 -2.02108 -.54262

14 1.55211 -.53357

15 -.72946 -.78920

16 -.30606 -1.80302

17 .34347 -1.56328

18 -2.45448 .80177

19 .78584 .15937

20 2.40988 -.46304

21 1.13802 -.81821

22 3.53529 -.93260

23 -.55191 -1.09502

24 3.18211 1.94567

25 .20968 -1.28127

26 4.11917 1.22305

27 1.46680 .21664

28 -1.67615 .22582

29 2.16713 -.48896

30 .35244 .12658

31 -2.10225 -1.48623

32 .87424 -.04986

33 -1.09442 -.98466

34 -1.18190 -.33558

35 -2.02768 .56940

35 35 35

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

NTotal

Observation Z1 Z2

Limited to first 100 cases.a.

Page 24: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

24

Prévision de la qualité pourune nouvelle année (obs. 35)

Canonical Discriminant Functions

Function 1

6420-2-4

Fu

nct

ion

2

3

2

1

0

-1

-2

Qualité

Group Centroids

Ungrouped Cases

Médiocre

Moyen

Bon

35

Page 25: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

25

Résultats de l’analyse factorielle discriminante

Group Statistics

3306.36 92.06 11 11.000

1363.64 80.31 11 11.000

28.55 8.80 11 11.000

305.00 52.29 11 11.000

3140.91 100.05 11 11.000

1262.91 71.94 11 11.000

16.45 6.73 11 11.000

339.64 54.99 11 11.000

3037.33 69.34 12 12.000

1126.42 88.39 12 12.000

12.08 6.30 12 12.000

430.33 104.85 12 12.000

3157.88 141.18 34 34.000

1247.32 126.62 34 34.000

18.82 10.02 34 34.000

360.44 91.40 34 34.000

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

Température

Soleil

Chaleur

Pluie

QualitéBon

Moyen

Médiocre

Total

Mean Std. Deviation Unweighted Weighted

Valid N (listwise)

Functions at Group Centroids

2.122 .272

.146 -.513

-2.079 .221

QualitéBon

Moyen

Médiocre

1 2

Function

Unstandardized canonical discriminantfunctions evaluated at group means

Z1 = Score prédictifde la qualité du vin construit à partir des variables météo.

Page 26: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

26

Résultats de l’analyse factorielle discriminante

Tests of Equality of Group Means

.361 27.389 2 31 .000

.382 25.061 2 31 .000

.503 15.334 2 31 .000

.647 8.440 2 31 .001

Température

Soleil

Chaleur

Pluie

Wilks'Lambda F df1 df2 Sig.

2Somme des carrés intra-classes (X)Wilks ' Lambda = 1

Somme des carrés totale (X)

Page 27: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

27

Résultats de l’analyse factorielle discriminante

Eigenvalues

3.279a 95.9 95.9 .875

.139a 4.1 100.0 .349

Function1

2

Eigenvalue % of Variance Cumulative %CanonicalCorrelation

First 2 canonical discriminant functions were used in theanalysis.

a.

2h

2h

Somme des carrés inter-classes (Z )Eigenvalue

Somme des carrés intra-classes (Z ) 1

s = Nombre maximum de variables discriminantes = k-1

= Eta

Page 28: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

28

Test en analyse factorielle discriminante(données multinormales)

Wilks' Lambda

.205 46.712 8 .000

.878 3.828 3 .281

Test of Function(s)1 through 2

2

Wilks'Lambda Chi-square df Sig.

Test 1 through s (ici s=2)

Test : H0 : 1 = … = s = 0 (au niveau de la population)

H1 : au moins 1 > 0

Statistique : Wilks’ Lambda = (1-12)... (1-s

2)

Décision : On rejette H0 au risque si

s

2 2 2h 1

h 1

1n 1 (p k) ln (1 ) p(k 1)

2

Page 29: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

29

Test m through s

Test : H0 : m = … = s = 0 (au niveau de la population)H1 : au moins m > 0

Statistique : Wilks’ Lambda = (1-m2)... (1-s

2)

Décision : On rejette H0 au risque si

s

2 2 2h 1

h m

1n 1 (p k) ln (1 ) (p m 1)(k m)

2

Page 30: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

30

Corrélation intra-classes entre les X et les Z

Structure Matrix

.724* .584

.701* -.176

.525 .780*

-.398 .421*

Température

Soleil

Chaleur

Pluie

1 2

Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

Largest absolute correlation between each variable andany discriminant function

*.

i

i i

nk

ij i ij ii 1 j 1

n nk k2 2

ij i ij ii 1 j 1 i 1 j 1

(x x )(z z )

cor(X, Z | Qualité)

(x x ) (z z )

Page 31: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

31

** *

**

**

* ***

**

* ***

*

Z

Pluie

** *

**

*

** *

**

*

** *

**

*

Z

Pluie

** *

**

*** *

**

*

Visualisation d’une corrélation intra-classes

Corrélationglobale positive

Corrélationintra-classesnégative

Page 32: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

32

Analyse discriminante bayesienne

Hypothèses de base : 1) Données multinormales 2) Dispersion des données identiques dans chaque classe

La probabilité qu’une observation provienne de la classe« Y = h » sachant que « X = x = (x1,…, xp) » peut s’écrire :

h

h

g (x)

kg (x)

h 1

eP(Y h | X x)

e

avec des fonctions de classification gh(x) de la forme :

gh(x) = bh0 + bh1X1+ … + bhpXp

où les X sont les variables d’origine.

Page 33: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

33

Les fonctions de classification gh(x)

Classification Function Coefficients

.818 .801 .782

.154 .145 .126

-7.010 -7.056 -6.903

-.046 -.040 -.022

-1350.819 -1285.420 -1212.706

Température

Soleil

Chaleur

Pluie

(Constant)

Bon Moyen Médiocre

Qualité

Fisher's linear discriminant functions

Elles sont calculées ici en supposant les 3 qualitésa priori équiprobables :

Page 34: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

34

Calcul des probabilités de chaque qualitépour chaqueannée

Moyen .007 .668 .325 Moyen

Médiocre .000 .045 .955 Médiocre

Moyen .010 .311 .679 Médiocre

Médiocre .000 .015 .985 Médiocre

Bon .643 .328 .029 Bon

Bon .933 .066 .000 Bon

Médiocre .000 .008 .992 Médiocre

Médiocre .000 .023 .977 Médiocre

Médiocre .000 .000 1.000 Médiocre

Moyen .756 .237 .007 Bon

Bon .892 .107 .000 Bon

Médiocre .087 .513 .400 Moyen

Médiocre .000 .113 .886 Médiocre

Bon .622 .377 .001 Bon

Moyen .011 .723 .266 Moyen

Moyen .014 .923 .063 Moyen

Moyen .062 .920 .018 Moyen

Médiocre .000 .018 .982 Médiocre

Moyen .379 .606 .015 Moyen

Bon .905 .095 .000 Bon

Moyen .367 .630 .004 Moyen

Bon .984 .016 .000 Bon

Moyen .014 .823 .163 Moyen

Bon .997 .003 .000 Bon

Moyen .059 .912 .029 Moyen

Bon .999 .001 .000 Bon

Moyen .714 .284 .002 Bon

Médiocre .001 .135 .864 Médiocre

Bon .852 .148 .000 Bon

Bon .196 .755 .049 Moyen

Médiocre .000 .176 .824 Médiocre

Bon .383 .606 .011 Moyen

Médiocre .004 .580 .416 Moyen

Médiocre .004 .414 .582 Médiocre

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Qualité

Proba.d'appartenance

au Groupe "Bon"

Proba.d'appartenance auGroupe "Moyen"

Proba.d'appartenance au

Groupe "Médiocre" Groupe prédit

Page 35: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

35

Qualité de la prévision

Qualité * Groupe prédit Crosstabulation

Count

9 2 11

2 8 1 11

2 10 12

11 12 11 34

Bon

Moyen

Médiocre

Qualité

Total

Bon Moyen Médiocre

Groupe prédit

Total

Page 36: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

36

Validité de la qualité de la prévisionévaluée par Jack-knife

Classification Resultsb,c

9 2 0 11

2 8 1 11

0 2 10 12

7 4 0 11

2 8 1 11

0 2 10 12

QualitéBon

Moyen

Médiocre

Bon

Moyen

Médiocre

Count

Count

Original

Cross-validateda

Bon Moyen Médiocre

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation,each case is classified by the functions derived from all cases other than that case.

a.

79.4% of original grouped cases correctly classified.b.

73.5% of cross-validated grouped cases correctly classified.c.

Page 37: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

37

Prévision de la qualité pourune nouvelle année

Pour le Bordeaux 1958 :- Température = 3 000- Soleil = 1 100- Chaleur = 20- Pluie = 300

Prévoir sa qualité.

Page 38: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

38

Analyse discriminante bayesienne sur les variables discriminantes Z1, Z2

1. La prédiction de la qualité du vin à l’aide des territoires

de qualité construits sur le plan discriminant (Z1, Z2)

est équivalente à la prédiction de la qualité obtenue

par analyse discriminante bayesienne des variables

discriminantes (Z1, Z2).

2. L’analyse discriminante bayesienne des variables

d’origine (X1,…,Xp) et l’analyse discriminante bayesienne

des variables discriminantes (Z1, Z2) conduisent aux

mêmes probabilités calculées des modalités de Y.

Page 39: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

39

Analyse discriminante bayesienne sur lesvariables discriminantes Z1, Z2

Moyen Moyen .007 .668 .325

Médiocre Médiocre .000 .045 .955

Moyen Médiocre .010 .311 .679

Médiocre Médiocre .000 .015 .985

Bon Bon .643 .328 .029

Bon Bon .933 .066 .000

Médiocre Médiocre .000 .008 .992

Médiocre Médiocre .000 .023 .977

Médiocre Médiocre .000 .000 1.000

Moyen Bon .756 .237 .007

Bon Bon .892 .107 .000

Médiocre Moyen .087 .513 .400

Médiocre Médiocre .000 .113 .886

Bon Bon .622 .377 .001

Moyen Moyen .011 .723 .266

Moyen Moyen .014 .923 .063

Moyen Moyen .062 .920 .018

Médiocre Médiocre .000 .018 .982

Moyen Moyen .379 .606 .015

Bon Bon .905 .095 .000

Moyen Moyen .367 .630 .004

Bon Bon .984 .016 .000

Moyen Moyen .014 .823 .163

Bon Bon .997 .003 .000

Moyen Moyen .059 .912 .029

Bon Bon .999 .001 .000

Moyen Bon .714 .284 .002

Médiocre Médiocre .001 .135 .864

Bon Bon .852 .148 .000

Bon Moyen .196 .755 .049

Médiocre Médiocre .000 .176 .824

Bon Moyen .383 .606 .011

Médiocre Moyen .004 .580 .416

Médiocre Médiocre .004 .414 .582

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Qualitéobservée

Qualitéprédite Prob(BON) Prob(MOYEN) Prob(MEDIOCRE)

Page 40: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

40

Utilisation de la méthode de segmentation CARTY ordinale : le critère Ordered Twoing

Segment t Effectif = nt

Segment tdroit

Effectif = ntdroit

Segment tgauche

Effectif = ntgauche

X X = 0X = 1

2

Ordered Twoing 2( , ) ( | ) ( | )tg td

g d g dt

j

n nt t p Y j t p Y j t

nMax

Page 41: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

41

Ordered Twoing

2

2

2

2

( , )

15 19

34

( | ) ( | )

15 19.80 .00 .158

34

g d

g dj

t t

p Y j t p Y j tMax

Règles d’arrêt :

- Improvement min = 0.01

- Effectif segment parent < 25

- Effectif segment descendant < 1

Classification

11 0 0

1 10 0

0 1 11

35.3% 32.4% 32.4%

ObservedBon

Moyen

Médiocre

Overall Percentage

Bon Moyen Médiocre

Predicted

Growing Method: CRTDependent Variable: Qualité

Risk

.059

.235

MethodResubstitution

Cross-Validation

Estimate

Growing Method: CRTDependent Variable: Qualité

Nb de groupespour CV = 25

Page 42: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

42

Crossvalidation (Documentation SPSS)

Crossvalidation divides the sample into a number of subsamples, or folds. Tree models are then generated, excluding the data from each subsample in turn. The first tree is based on all of the cases except those in the first sample fold, the second tree is based on all of the cases except those in the second sample fold, and so on.

For each tree, misclassification risk is estimated by applying the tree to the subsample excluded in generating it.

• You can specify a maximum of 25 sample folds. The higher the value, the fewer the number of cases excluded for each tree model.

• Crossvalidation produces a single, final tree model. The crossvalidated risk estimate for the final tree is calculated as the average of the risks for all of the trees.

Page 43: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

43

Deuxième exemple : les races caninesRace Taille Poids Vitesse Intell. Affect. Agress. Fonction

123456789101112131415161718192021222324252627

BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve

TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++

PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++

V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-

INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+

AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-

AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-

UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité

Page 44: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

44

Le tableau disjonctif complet

Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________

Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1

xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon

Page 45: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

45

Analyse factorielle discriminante Y = FonctionX = variables indicatrices des caractéristiques physiques et psychiques des chiens

Canonical Discriminant Functions

Function 1

420-2-4-6

Fu

nct

ion

2

3

2

1

0

-1

-2

-3

fonction

Group Centroids

utilité

chasse

compagnie

utilité

chasse

compagnie

Functions at Group Centroids

1.295 -1.706

1.637 1.769

-3.461 .143

fonctioncompagnie

chasse

utilité

1 2

Function

Unstandardized canonical discriminantfunctions evaluated at group means

Page 46: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

46

Premier plan discriminant

Z1

420-2-4-6

Z2

3

2

1

0

-1

-2

-3

fonction

utilité

chasse

compagnie

terre-neuve

teckel

setter

saint-bernard

pointer

pékinois

mastiff

levrier

labrador (chasse)

grand bleu de gascogne

fox-terrier

fox-houndepagneul français

epagneul breton

dogue allemand

dobermann

dalmatien (compagnie)

colley

cocker

chihuahua

caniche

bull-mastiff

bull-dog

boxer

berger allemand

basset

beauceron

Page 47: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

47

Variables discriminantesbeauceron -2.45 -1.41

basset 2.08 1.12

berger allemand -3.46 -.80

boxer .55 -.27

bull-dog 1.23 -2.41

bull-mastiff -5.60 .49

caniche 1.74 -1.94

chihuahua 1.96 -1.80

cocker 1.52 -2.42

colley -.55 -1.19

dalmatien 2.45 -.05

dobermann -1.43 2.34

dogue allemand -3.61 .06

epagneul breton 1.44 .55

epagneul français 2.74 2.24

fox-hound .30 2.34

fox-terrier .85 -2.76

grd bleu de gasc 1.57 2.63

labrador 2.45 -.05

levrier 2.20 2.56

mastiff -3.86 .49

pékinois 1.96 -1.80

pointer .47 2.56

saint-bernard -4.59 -.12

setter 1.48 1.95

teckel 1.23 -2.41

terre-neuve -2.69 .10

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN Z1 Z2

Page 48: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

48

Case Summariesa

beauceron utilité 14.12 26.81 3.43 3.43 Utilité

basset chasse 8.61 .62 31.68 .62 Chasse

berger allemand utilité 23.41 32.57 .89 .89 Utilité

boxer compagnie 2.61 5.35 16.24 2.61 Compagnie

bull-dog compagnie .50 17.63 28.56 .50 Compagnie

bull-mastiff utilité 52.29 53.96 4.68 4.68 Utilité

caniche compagnie .25 13.74 31.40 .25 Compagnie

chihuahua compagnie .45 12.87 33.20 .45 Compagnie

cocker compagnie .56 17.55 31.40 .56 Compagnie

colley compagnie 3.66 13.53 10.26 3.66 Compagnie

dalmatien compagnie 4.07 3.98 34.99 3.98 Chasse

dobermann utilité 23.84 9.76 8.94 8.94 Utilité

dogue allemand utilité 27.19 30.44 .03 .03 Utilité

epagneul breton chasse 5.13 1.51 24.23 1.51 Chasse

epagneul français chasse 17.70 1.44 42.88 1.44 Chasse

fox-hound chasse 17.37 2.11 18.98 2.11 Chasse

fox-terrier compagnie 1.32 21.17 26.99 1.32 Compagnie

grd bleu de gasc chasse 18.89 .75 31.47 .75 Chasse

labrador chasse 4.07 3.98 34.99 3.98 Chasse

levrier chasse 19.04 .95 37.95 .95 Chasse

mastiff utilité 31.38 31.87 .28 .28 Utilité

pékinois compagnie .45 12.87 33.20 .45 Compagnie

pointer chasse 18.89 1.99 21.29 1.99 Chasse

saint-bernard utilité 37.14 42.34 1.34 1.34 Utilité

setter chasse 13.43 .06 27.65 .06 Chasse

teckel compagnie .50 17.63 28.56 .50 Compagnie

terre-neuve utilité 19.10 21.47 .60 .60 Utilité

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN fonction DCOMP DCHASSE DUTILITÉ MIN PREDICT

Limited to first 100 cases.a.

Prévision de la fonction par calcul de la distance carrée entre chaque chien et les centre de gravité des classes dans le plan discriminant (Z1, Z2)

Page 49: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

49

Analyse discriminante bayesienne(sur les données d’origine transformées en indicatrices)

Classification Function Coefficients

.347 2.399 3.709

15.197 18.732 8.520

55.660 57.844 25.214

44.598 53.851 30.212

7.616 8.999 9.587

13.215 14.656 7.734

15.018 15.611 6.764

10.845 9.080 4.935

24.126 35.742 20.319

14.457 15.871 5.810

-44.558 -58.390 -18.913

T-

T+

P-

P+

V-

V+

I-

I+

Af-

Ag-

(Constant)

compagnie chasse utilité

fonction

Fisher's linear discriminant functions

Problème : Appliquer une méthode supposant la normalitésur des données binaires !!!!

Page 50: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

50

Prévision de la fonction d’un chienCase Summariesa

beauceron utilité .00474 .00001 .99526 utilité

basset chasse .01807 .98193 .00000 chasse

berger allemand utilité .00001 .00000 .99999 utilité

boxer compagnie .79642 .20270 .00088 compagnie

bull-dog compagnie .99981 .00019 .00000 compagnie

bull-mastiff utilité .00000 .00000 1.00000 utilité

caniche compagnie .99882 .00118 .00000 compagnie

chihuahua compagnie .99799 .00201 .00000 compagnie

cocker compagnie .99980 .00020 .00000 compagnie

colley compagnie .95774 .00692 .03534 compagnie

dalmatien compagnie .48859 .51141 .00000 chasse

dobermann utilité .00035 .39788 .60177 utilité

dogue allemand utilité .00000 .00000 1.00000 utilité

epagneul breton chasse .14058 .85941 .00001 chasse

epagneul français chasse .00030 .99970 .00000 chasse

fox-hound chasse .00049 .99930 .00022 chasse

fox-terrier compagnie .99995 .00005 .00000 compagnie

grd bleu de gasc chasse .00011 .99988 .00000 chasse

labrador chasse .48859 .51141 .00000 chasse

levrier chasse .00012 .99988 .00000 chasse

mastiff utilité .00000 .00000 1.00000 utilité

pékinois compagnie .99799 .00201 .00000 compagnie

pointer chasse .00021 .99972 .00006 chasse

saint-bernard utilité .00000 .00000 1.00000 utilité

setter chasse .00125 .99875 .00000 chasse

teckel compagnie .99981 .00019 .00000 compagnie

terre-neuve utilité .00010 .00003 .99987 utilité

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

CHIEN fonction

Probabilitiesof

Membershipin Group 1

Probabilitiesof

Membershipin Group 2

Probabilitiesof

Membershipin Group 3

PredictedGroup

Limited to first 100 cases.a.

Page 51: 1 Analyse discriminante Michel Tenenhaus. 2 Les objectifs de lanalyse discriminante Étude dun tableau Individus Variables : Les individus sont décrits.

51

Prévision de la fonction d’un chien

Classification Resultsb,c

9 1 0 10

0 9 0 9

0 0 8 8

90.0 10.0 .0 100.0

.0 100.0 .0 100.0

.0 .0 100.0 100.0

7 2 1 10

3 6 0 9

1 1 6 8

70.0 20.0 10.0 100.0

33.3 66.7 .0 100.0

12.5 12.5 75.0 100.0

fonctioncompagnie

chasse

utilité

compagnie

chasse

utilité

compagnie

chasse

utilité

compagnie

chasse

utilité

Count

%

Count

%

Original

Cross-validateda

compagnie chasse utilité

Predicted Group Membership

Total

Cross validation is done only for those cases in the analysis. In cross validation, eachcase is classified by the functions derived from all cases other than that case.

a.

96.3% of original grouped cases correctly classified.b.

70.4% of cross-validated grouped cases correctly classified.c.