1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale -...

59
1 Michel Tenenhaus Méthodes de segmentation

Transcript of 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale -...

Page 1: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

1

Michel Tenenhaus

Méthodes de segmentation

Page 2: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

2

Les données

Réponse : Y - Numérique- Ordinale- Nominale

Prédicteurs : X1,…, Xk - Numérique - Ordinale- Nominale

Objectif :

• Construire un arbre de décision à l’aide des prédicteurs.

• Les segments terminaux sont aussi purs que possible par rapport à la réponse Y.

découpé en 10 classes,puis considéré comme

ordinale

Page 3: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

3

Les méthodes

• CHAID : Chi-squared Automatic Interaction Detector

• CART : Classification And Decision Tree

• SIPINA : Système Interactif pour les Processus d’Interrogation Non-Arborescent

Page 4: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

4

Exemple : Référendum sur la constitution européenne

Vote constitution européenne

Sexe Classe d'age Proximité politique

Dernier diplôme Confiance

en son avenir

Oui Femme 25-34 PS Bac+3/4 Confiant+ Oui Homme 60 et + PS < Bac Confiant- Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp Oui Homme 45-59 PS Bac Confiant++ Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++ Oui Homme 25-34 UMP Bac Confiant+ Oui Femme 25-34 UMP Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+ Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+ Oui Homme 45-59 UDF < Bac Confiant-- Oui Homme 25-34 UMP Bac+5/Grande école Confiant+ Oui Homme 60 et + UMP < Bac Confiant+ Oui Femme 35 à 44 ans PS < Bac Confiant+ Oui Homme 18-24 UMP Bac+3/4 Confiant- Oui Femme 35 à 44 ans PS Bac+2 Confiant- Oui Femme 18-24 Verts Bac Confiant++ Oui Femme 60 et + UMP < Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+2 Confiant+ Oui Homme 60 et + UMP < Bac Confiant+

Page 5: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

5

Sexe * Vote constitution européenne

% within Sexe

56.1% 43.9%

53.2% 46.8%

54.7% 45.3%

Homme

Femme

Sexe

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 1.936, NS = .164

Classe d'age * Vote constitution européenne

% within Classe d'age

59.8% 40.2%

55.8% 44.3%

58.8% 41.2%

59.7% 40.3%

42.9% 57.1%

54.7% 45.3%

18-24

25-34

35 à 44 ans

45-59

60 et +

Classed'age

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 43.62, NS = .000

Proximité politique * Vote constitution européenne

% within Proximité politique

94.9% 5.1%

98.4% 1.6%

58.8% 41.2%

65.8% 34.2%

23.9% 76.1%

22.5% 77.5%

75.0% 25.0%

58.3% 41.7%

96.8% 3.2%

71.2% 28.8%

56.9% 43.1%

30.0% 70.0%

54.7% 45.3%

EG

PC

PS

Verts

UDF

UMP

MPF

MNR

FN

Aucun partI

Nsp

Refus

Proximitépolitique

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 536.3, NS = .000

Revenu foyer * Vote constitution européenne

% within Revenu foyer

59.0% 41.0%

66.0% 34.0%

66.9% 33.1%

60.4% 39.6%

64.4% 35.6%

54.5% 45.5%

58.5% 41.5%

46.1% 53.9%

25.3% 74.7%

54.9% 45.1%

37.5% 62.5%

54.7% 45.3%

< 1 000 Euros

1 000-1 200 €

1 200-1 400 €

1 400-1 700 €

1 700-2 000 €

2 000-2 300 €

2 300-3 000 €

3 000-4 500 €

> 4 500 €

Nsp

Refus

Revenufoyer

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 112.5, NS = .000

Page 6: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

6

Dernier diplôme * Vote constitution européenne

% within Dernier diplôme

64.5% 35.5%

55.9% 44.1%

48.8% 51.2%

42.2% 57.8%

29.6% 70.4%

66.9% 33.1%

50.0% 50.0%

54.7% 45.3%

< Bac

Bac

Bac+2

Bac+3/4

Bac+5 et plus

Pas de diplôme

NSP

Dernierdiplôme

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 123.6, NS = .000

Confiance en son avenir * Vote constitution européenne

% within Confiance en son avenir

30.2% 69.8%

31.7% 68.3%

74.1% 25.9%

90.7% 9.3%

43.3% 56.7%

54.7% 45.3%

Confiant++

Confiant+

Confiant-

Confiant--

Nsp

Confianceen sonavenir

Total

Non Oui

Vote constitutioneuropéenne

Khi-deux = 545.3, NS = .000

Tableau croisé Khi-deux et p-value Vote*Sexe 1.94 (p = .164) Vote*Age 43.6 (p = .000) Vote*[Proximité politique] 536.3 (p = .000) Vote*[Revenu foyer] 112.5 (p = .000) Vote*Diplôme 123.6 (p = .000) Vote*[Confiance en son avenir] 545.3 (p= .000)

Page 7: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

7

Model Summary

CRT

Vote constitution européenne

Sexe, Classe d'age, Proximité politique,Revenu foyer, Dernier diplôme , Confiance enson avenir

None

5

50

30

Confiance en son avenir, Proximité politique,Dernier diplôme , Revenu foyer, Sexe

9

5

3

Growing Method

Dependent Variable

Independent Variables

Validation

Maximum Tree Depth

Minimum Cases inParent Node

Minimum Cases inChild Node

Specifications

Independent VariablesIncluded

Number of Nodes

Number of TerminalNodes

Depth

Results

Utilisation de CART

Élagage avec la règle de un écart-type

Page 8: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

8

Page 9: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

9

Présentation de CHAID

1. Mesures de liaison entre deux variables X et Y

. .

- * [ ]

- ( )

ˆ-

ˆ̂- estimation

de à l'aide du

modèle 3 estimé

par MV

ij

ij ij

i jij

ij

ij

X Y n

m E n

n nm

n

m

m

X qualitative à I modalités

Nature de Y Modèle

Test d’indépendance : Statistique utilisée

Loi sous l’hypothèse d’indépendance

1. Modèle d’indépendance :

( ) X Yij i jLog m

Nominale (J modalités)

2. Modèle saturé :

( ) X Y XYij i j ijLog m

0Test H : 0, ,XYij i j

- 22

ˆ

ˆij ij

i j ij

n m

m

- 2 2 ( )ˆ

ijij

i j ij

nG n Log

m

2[(I-1)(J-1)]

Ordinale

3. Modèle d’association : ( )

( )

ij

X Yi j i j

Log m

x y y

0 1Test H : ... 0Ix x

2ˆ̂

2 ( )ˆ

ijij

i j ij

mH n Log

m 2(I-1)

Numérique Analyse de la variance à un facteur

F F(I-1,n-I)

Page 10: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

10

2. Description d’une étape de CHAID sur un segment

Pour chaque prédicteur Xj :

- Fusion des modalités i et i’ de Xj telles que les profils

Prob(Y/Xj=i) et Prob(Y/Xj=i’) sur le segment sont voisins.

- Si Xj est ordinale, seules des modalités adjacentes sont autorisées à fusionner.

- D’où des nouveaux prédicteurs Xj*.

1. Phase de fusion

Page 11: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

11

Description d’une étape de CHAID sur un segment

Pour chaque prédicteur Xj :

- Étude des tableaux croisés Xj*Y :

Calcul de la p-value du test d’indépendance, éventuellement corrigée pour tenir compte du nombre de modalités (Mutiplicateur de Bonferroni).

- Sélection du prédicteur Xj* ayant la plus petite p-value et division du

segment selon ce prédicteur.

2. Phase de division

Page 12: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

12

Description d’une étape de CHAID sur un segment

- Segment pur- Prédicteurs constants sur le segment- Taille du segment- Taille des segments descendants- Profondeur de l’arbre- Valeur de la p-value minimum

3. Règle d’arrêt basées sur des critères

Page 13: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

13

Étude danoise sur la prospérité (Source : Croux, 2005)

Congélateur Numéro Secteur Revenu Age Sexe

Oui Non 1 Privé Elevé Agé Masculin 152 39

2 Public Elevé Agé Masculin 82 18

3 Privé Moyen Agé Masculin 135 31

4 Public Moyen Agé Masculin 35 12

5 Privé Bas Agé Masculin 89 45

6 Public Bas Agé Masculin 20 9

7 Privé Elevé Jeune Masculin 259 46

8 Public Elevé Jeune Masculin 101 26

9 Privé Moyen Jeune Masculin 183 55

10 Public Moyen Jeune Masculin 54 15

11 Privé Bas Jeune Masculin 108 54

12 Public Bas Jeune Masculin 22 13

13 Privé Elevé Agé Féminin 82 17

14 Public Elevé Agé Féminin 85 16

15 Privé Moyen Agé Féminin 46 16

16 Public Moyen Agé Féminin 60 11

17 Privé Bas Agé Féminin 29 29

18 Public Bas Agé Féminin 40 18

19 Privé Elevé Jeune Féminin 160 23

20 Public Elevé Jeune Féminin 152 28

21 Privé Moyen Jeune Féminin 89 17

22 Public Moyen Jeune Féminin 56 21

23 Privé Bas Jeune Féminin 57 41

24 Public Bas Jeune Féminin 34 28

Page 14: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

14

Utilisation de CHAID pour Y binaire

Model Summary

CHAID

congelateur

revenu, age, sexe, secteur

None

3

100

50

revenu, sexe

6

4

2

Growing Method

Dependent Variable

Independent Variables

Validation

Maximum Tree Depth

Minimum Cases inParent Node

Minimum Cases inChild Node

Specifications

Independent VariablesIncluded

Number of Nodes

Number of TerminalNodes

Depth

Results

Pas de correction de Bonferroni

Page 15: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

15

Page 16: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

16

Étude MaliTest de l’efficacité du diffuseur d’iode RHODIFUSE

Conséquences biologiques du

déficit en iode :

Chez l’enfant :

- Retard mental

- Troubles musculaire

- Paralysie

- Crétinisme

Chez l’adulte :

- Goitre

- Adynamie

- Crétinisme

- Hypoproductivité

Page 17: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

17

Classification des goitres selon l ’OMS

• Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet.

• Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension.

• Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale.

• Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale.

• Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

Page 18: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

18

L’expérimentation

N’Djiba

Sebabougou

Sirablo (Témoin)

Woloni

Bamako

17

19

4 2

6

Niger

5

7

15

15

37

Page 19: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

19

Les données

• Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II

• X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni

3 = N ’Djiba, 4 = Sebabougou

• X2 = Sexe : 1 = Homme, 2 = Femme

• X3 = Jour : 0 = 0, 1 = 180, 2 = 360

• X4 = Iode : 1 = Absence, 2 = Présence

Page 20: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

20

Les données (en effectif)

Répartition des goitres par niveau

Sirablo Homme 0 Absence 106 12 46 11 175

Sirablo Homme 180 Absence 60 31 46 15 152

Sirablo Homme 360 Absence 64 23 50 14 151

Sirablo Femme 0 Absence 77 21 71 65 234

Sirablo Femme 180 Absence 46 28 63 65 202

Sirablo Femme 360 Absence 44 29 67 57 197

Woloni Homme 0 Absence 127 27 45 12 211

Woloni Homme 180 Présence 145 28 19 1 193

Woloni Homme 360 Présence 161 16 12 2 191

Woloni Femme 0 Absence 69 21 65 50 205

Woloni Femme 180 Présence 76 40 41 13 170

Woloni Femme 360 Présence 89 28 33 10 160

N'Djiba Homme 0 Absence 91 8 14 6 119

N'Djiba Homme 180 Présence 94 14 10 0 118

N'Djiba Homme 360 Présence 99 7 12 0 118

N'Djiba Femme 0 Absence 42 18 45 34 139

N'Djiba Femme 180 Présence 50 29 38 13 130

N'Djiba Femme 360 Présence 67 18 32 6 123

Sebabougou Homme 0 Absence 112 47 30 13 202

Sebabougou Homme 180 Présence 155 26 10 1 192

Sebabougou Homme 360 Présence 171 12 12 2 197

Sebabougou Femme 0 Absence 86 40 47 55 228

Sebabougou Femme 180 Présence 119 26 39 18 202

Sebabougou Femme 360 Présence 132 12 41 22 207

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

VILLAGE SEXE JOUR IODE G1 G2 G3 G4 Total

Page 21: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

21

Les données (en fréquence)

Fréquence de répartition des goitres

Sirablo Homme 0 Absence .61 .07 .26 .06

Sirablo Homme 180 Absence .39 .20 .30 .10

Sirablo Homme 360 Absence .42 .15 .33 .09

Sirablo Femme 0 Absence .33 .09 .30 .28

Sirablo Femme 180 Absence .23 .14 .31 .32

Sirablo Femme 360 Absence .22 .15 .34 .29

Woloni Homme 0 Absence .60 .13 .21 .06

Woloni Homme 180 Présence .75 .15 .10 .01

Woloni Homme 360 Présence .84 .08 .06 .01

Woloni Femme 0 Absence .34 .10 .32 .24

Woloni Femme 180 Présence .45 .24 .24 .08

Woloni Femme 360 Présence .56 .18 .21 .06

N'Djiba Homme 0 Absence .76 .07 .12 .05

N'Djiba Homme 180 Présence .80 .12 .08 .00

N'Djiba Homme 360 Présence .84 .06 .10 .00

N'Djiba Femme 0 Absence .30 .13 .32 .24

N'Djiba Femme 180 Présence .38 .22 .29 .10

N'Djiba Femme 360 Présence .54 .15 .26 .05

Sebabougou Homme 0 Absence .55 .23 .15 .06

Sebabougou Homme 180 Présence .81 .14 .05 .01

Sebabougou Homme 360 Présence .87 .06 .06 .01

Sebabougou Femme 0 Absence .38 .18 .21 .24

Sebabougou Femme 180 Présence .59 .13 .19 .09

Sebabougou Femme 360 Présence .64 .06 .20 .11

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4

Page 22: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

22

Évolution des niveaux moyens de goitreSIRABLO (Témoin)

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e2.8

2.6

2.4

2.2

2.0

1.8

1.6

SEXE

Homme

Femme

WOLONI

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

N'DJIBA

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

SEBABOUGOU

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

Page 23: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

23

Utilisationde CHAIDpour Y ordinale

Population deshommes

Page 24: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

24

Population desfemmes

Page 25: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

25

École de Management Avancé

Professeur Indice Age Sexe EMA Doctorat Directeur Recherche Pédagogie

1 20 60 M 0 1 1 2 4 2 20 53 M 0 1 1 3 3 3 20 52 M 1 1 1 2 4 4 20 50 M 0 1 0 5 4 5 20 48 M 0 1 0 5 4 6 20 48 M 1 1 1 1 4 7 19 55 M 0 0 0 1 4

94 3 46 F 0 1 0 1 3 95 3 30 M 1 0 0 1 4 96 1 44 M 0 1 0 1 1

Page 26: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

26

Utilisation de CHAID pour Y numérique

Model Summary

CHAID

Indice

Age, Homme, EMA, Doctorat, Directeur,Pédagogie, Recherche

None

3

10

5

Age, EMA, Pédagogie, Recherche

10

6

3

Growing Method

Dependent Variable

Independent Variables

Validation

Maximum Tree Depth

Minimum Cases inParent Node

Minimum Cases inChild Node

Specifications

Independent VariablesIncluded

Number of Nodes

Number of TerminalNodes

Depth

Results

Avec de correction de Bonferroni

Page 27: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

27

Page 28: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

28

Présentation de CART Exemple : Crédit

On observe sur n = 323 personnes :

Réponse Y : Credit ranking (good/bad)

4 prédicteurs X :

- X1 = Classe d’age (young, middle, old)

- X2 = Has AMEX card (yes/no)

- X3 = Paid Weekly/Monthly (weekly pay/monthly salary)

- X4 = Social Class (management, professional, clerical,

skilled, unskilled).

Page 29: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

29

Mesures de liaison entre X binaire et Y

Y nominale : le critère GiniMesure de l’impureté d’un segment : Indice de Gini

,

2

( ) ( | ) ( | )

( | ) 1 ( | )

1 ( | )

j kj k

j

j

i t p j t p k t

p j t p j t

p j t

où p(j|t) = fréquence de la modalité j de Y sur le segment t

Entropie quadratique

Résultat :1

0 ( ) 1i tJ

Page 30: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

30

Exemple

2 2

Impureté = Prob(Bad)*Prob(Good) + Prob(Good)*Prob(Bad)

.5201*.4799 .4799*.5201 .49919198

1 .5201 .4799

1 1 .5

2

Segment très impur

Page 31: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

31

Division d’un segment

Segment tEffectif = nt

Impureté i(t)

Segment tdroit

Effectif = ntdroit

Impureté i(tdroit)

Segment tgauche

Effectif = ntgauche

Impureté i(tgauche)

X X1 aX = 1

Diminution de l’impureté = mesure de liaison entre X et Y

2

2

( , ) ( ) ( ) ( )

( | ) ( | )

tg tdGini g d g d

t t

tg tdg d

jt

n nt t i t i t i t

n n

n np j t p j t

n

CritèreGini

Page 32: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

32

Exemple

(0)

(1) (2)

i(0)=.49919198

i(1)=.23106222 i(2)=.26634552

Diminution de l’impureté = Critère de Gini

1 2(0) (1) (2)

.4992 .5108 .23106 .4892 .26635

.2508

n ni i i

n n

Page 33: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

33

Y nominale : le critère Twoing

Segment t Effectif = nt

Segment tdroit

Effectif = ntdroit

Segment tgauche

Effectif = ntgauche

X X = 0X = 1

2

2( , ) ( | ) ( | )tg td

Twoing g d g djt

n nt t p j t p j t

n

Page 34: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

34

Y ordinale : le critère Ordered Twoing

Segment t Effectif = nt

Segment tdroit

Effectif = ntdroit

Segment tgauche

Effectif = ntgauche

X X = 0X = 1

2Ordered Twoing 2( , ) ( | ) ( | )tg td

g d g dt

j

n nt t p Y j t p Y j t

nMax

Page 35: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

35

Y numérique : le critère LSD(Least Square Deviation)

Segment t Effectif = nt

Segment tdroit

Effectif = ntdroit

Segment tgauche

Effectif = ntgauche

X X = 0X = 1

2

2( , ) ( ) ( )tg td

g d g dt

n nt t y t y t

n

Page 36: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

36

Construction de l’arbre maximum TMax

• On part de l’échantillon de base t0.• Pour chaque prédicteur Xj, on cherche la dichotomie

des modalités de Xj conduisant à deux segments descendants tg et td maximisant (tg,td).

• Si X est nominale, la dichotomie est quelconque.• Si X est ordinale, la dichotomie est {[X i],[X > i]} • On itère la procédure sur chaque segment descendant.• La procédure est stoppée en fonction de règles d’arrête

définies par l’utilisateur.

Page 37: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

37

Exemple Crédit

Category % nGood 47.99 155Bad 52.01 168Total (100.00) 323

Node 0

Category % nGood 13.33 22Bad 86.67 143Total (51.08) 165

Node 2

Category % nGood 100.00 7Bad 0.00 0Total (2.17) 7

Node 6Category % nGood 9.49 15Bad 90.51 143Total (48.92) 158

Node 5

Category % nGood 84.18 133Bad 15.82 25Total (48.92) 158

Node 1

Category % nGood 99.08 108Bad 0.92 1Total (33.75) 109

Node 4Category % nGood 51.02 25Bad 48.98 24Total (15.17) 49

Node 3

Category % nGood 100.00 8Bad 0.00 0Total (2.48) 8

Node 8Category % nGood 41.46 17Bad 58.54 24Total (12.69) 41

Node 7

Credit ranking (1=Good)

Paid Weekly/MonthlyImprovement=0.2508

Weekly pay

Age CategoricalImprovement=0.0340

Old ( > 35)Middle (25-35);Young (< 25)

Monthly salary

Age CategoricalImprovement=0.0484

Middle (25-35);Old ( > 35)Young (< 25)

Social ClassImprovement=0.0142

Clerical;ManagementProfessional

Règles d’arrêt :

- Improvement minimum = 0.01

- Effectif segment parent minimum = 25

- Effectif segment descendant minimum = 1

Page 38: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

38

Les règles d’arrêt

• Les prédicteurs sont constants sur le segment.

• Le segment est pur.

• Profondeur de l’arbre égale au maximum spécifié.

• Taille du segment < minimum spécifié (ici 20).

• Taille du sous-segment < minimum spécifié (ici 5).

• Diminution de l’impureté < minimum spécifié (ici .0001).

Page 39: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

39

Risque global

• Chaque segment terminal est affecté

à la modalité de Y la plus fréquente dans le segment.

• Risque = % de mal classés

Page 40: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

40

Tableau de classification et risque global

Misclassification Matrix

Actual Category Good Bad Total

Predicted Category Good 123 1 124 Bad 32 167 199

Total 155 168 323

Resubstitution

Risk Estimate 0.102167 SE of Risk Estimate 0.016852

.102167 (1 .102167)

323

33/ 323

Page 41: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

41

Tableau des gains

nttn

n - Gain = Nb de réponses cibles dans le segment t

- Gain (%) = % de réponses cibles de l’échantillon total dans le segment t

- Resp (%) = % de réponses cibles dans le segment t

- Index (%) = Proportion de réponses cibles dans le segment

Proportion de réponses cibles dans l'échantillon total

t

Page 42: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

42

Élagage (Pruning)

• On construit l’arbre maximum Tmax.

• On recherche le plus petit arbre T dont le risque de mauvaise classification

est peu supérieur à celui de l’arbre complet.

max ( )Nb de mal classés

( )n

kk

t T

n n tC T

n

( = ensemble des segments terminaux)T

Page 43: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

43

Mesure de coût-complexité C(T)

( ) ( )C T C T T

- = Nombre de segments terminaux de l'arbre T T

- = Pénalité attribuée à chaque segments terminal

max

- ( ) = Arbre construit dans la phase de construction

de minimisant ( )

T

T C T

max- (0) = arbre de complexité maximumT T

- Plus augmente, plus le nombre de segments

terminaux de ( ) diminue.T

Page 44: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

44

L’algorithme d’élagage de CART

max 1 2 3 racine...T T T T T

racine- Soit = Segment racine = Echantillon de base.T

- L'algorithme de CART permet de construire

une suite d'arbres emboités ( ) :k kT T

correspondant à une suite croissante de pénalités de complexité k :

1 2 30 ...

Page 45: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

45

Choix de l’arbre à retenir

max 1 2 racine( ) ( ) ( ) ... ( )C T C T C T C T

- Calcul des risques de mauvaise classification de la suite de sous-arbres :

max maxmax

( ) 1 ( )Ecart-type ( )

C T C TC T

n

max- Calcul de l'écart-type de ( ) :C T

max max( ) ( ) + *Ecart-type ( )jC T C T C T

- Choix de l'arbre ayant le plus petit nombre de segments terminaux et vérifiant :

jT

Par défaut = 1

Page 46: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

46

Exemple : Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures moyennes journalières

• SOLEIL : Durée d’insolation• CHALEUR : Nombre de jours de grande chaleur• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon (1), Moyen (2), Médiocre (3)

Page 47: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

47

Les données 3064 1201 10 361 2

3000 1053 11 338 3

3155 1133 19 393 2

3085 970 4 467 3

3245 1258 36 294 1

3267 1386 35 225 1

3080 966 13 417 3

2974 1189 12 488 3

3038 1103 14 677 3

3318 1310 29 427 2

3317 1362 25 326 1

3182 1171 28 326 3

2998 1102 9 349 3

3221 1424 21 382 1

3019 1230 16 275 2

3022 1285 9 303 2

3094 1329 11 339 2

3009 1210 15 536 3

3227 1331 21 414 2

3308 1366 24 282 1

3212 1289 17 302 2

3361 1444 25 253 1

3061 1175 12 261 2

3478 1317 42 259 1

3126 1248 11 315 2

3458 1508 43 286 1

3252 1361 26 346 2

3052 1186 14 443 3

3270 1399 24 306 1

3198 1259 20 367 1

2904 1164 6 311 3

3247 1277 19 375 1

3083 1195 5 441 3

3043 1208 14 371 3

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

Température Soleil Chaleur Pluie Qualité

Page 48: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

48

Arbre de taillemaximale T1

Page 49: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

49

T2 T3

T4 T5

Page 50: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

50

Q u e l a r b r e f a u t - i l c h o i s i r ? C a l c u l o n s l e s c o û t s d ’ e r r e u r d e c l a s s e m e n t ( o u p r o p o r t i o n s d e m a l c l a s s é s ) a s s o c i é s à c e s d i f f é r e n t s a r b r e s :

A r b r e P é n a l i t é C o û t T 1 = T m a x 0 2 / 3 4 = . 0 5 8 8

T 2 . 0 2 9 4 / 3 4 = . 1 1 7 6 T 3 . 0 5 9 6 / 3 4 = . 1 7 6 4 T 4 . 1 4 7 1 1 / 3 4 = . 3 2 3 5

T 5 = T r a c i n e . 3 2 4 2 2 / 3 4 = . 6 4 7 0

I c i l ’ é c a r t - t y p e d u c o û t d e l ’ a r b r e d e t a i l l e m a x i m a l e v a u t

. 0 5 8 8 ( 1 . 0 5 8 8 )( ( ) ) . 0 4 0 3

3 4m a xE T C T

L a r è g l e d u « u n é c a r t - t y p e » c o n d u i t d o n c à s é l e c t i o n n e r l e p l u s p e t i t a r b r e T j t e l q u e

( ) ( ) ( ( ) ) . 0 5 8 8 0 . 0 4 0 3 . 0 9 9 1j m a x m a xC T C T E T C T

D ’ o ù l a s é l e c t i o n d e l ’ a r b r e T m a x . S i l ’ o n a p p l i q u e l a r è g l e d u « d e u x é c a r t s - t y p e s » , o n u t i l i s e l e s e u i l . 1 3 9 4 e t o n e s t a l o r s a m e n é à s é l e c t i o n n e r l ’ a r b r e T 2 . P o u r t r o i s é c a r t s - t y p e s , l e s e u i l d e v i e n t . 1 7 9 7 e t l ’ a r b r e s é l e c t i o n n é d e v i e n t T 3 .

Page 51: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

51

Présentation de SIPINA Exemple : Titanic

Survivant Classe Age Sexe

Oui Non

Pourcentage de

survivants

M 57 118 33 Adulte

F 140 4 97

M 5 0 100 Première

Enfant F 1 0 100

M 14 154 8 Adulte

F 80 13 86

M 11 0 100 Deuxième

Enfant F 13 0 100

M 75 387 16 Adulte

F 76 89 46

M 13 35 27 Troisième

Enfant F 14 17 45

M 192 670 22 Equipage Adulte

F 20 3 87

Page 52: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

52

Mesure de liaison entre X et Y nominale

Mesure de l’impureté (entropie, incertitude)d’un segment t : Indice de Gini corrigée

2

2 ( )( ) 1 ( | ) 1

( )j

j j

n ti t p j t

n t

Dans CART :

Indépendantde la tailledu segment

2( )

( ) 1( )j

j

n ti t

n t J

Dans SIPINA :

Diminue lorsque la taille du segment

augmente

Le paramètre est fixé automatiquement par SIPINA.

Page 53: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

53

Le graphe latticiel de SIPINA

Survie au naufrage du Titanic

Page 54: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

54

Mesure de liaison entre X et Y nominale

Mesure de l’incertitude sur une partitionS = {t1,…, tK} de

l’échantillon de base t0

2

1

( )( )( ) 1

( )

Kj kk

k j k

n tn ti S

n n t J

Mesure de l’incertitude sur une partition induite par XSX = {t1=[X=1],…, tI=[X=I]} de l’échantillon de base t0

2

1

( ) 1I

ijiX

i j i

nni S

n n J

0 0( , ) ( ) ( )X XI t S i t i S Mesure de la force

de la liaison entre X et Y :Gain sur l’incertitude

Page 55: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

55

Description de l’algorithme SIPINA

• La partition initiale S0 est formée de l’échantillon de base.

• Le paramètre est fixé de manière automatique.

• Recherche de la variable Xj conduisant à la meilleure partition S1, soit maximisant le gain sur l’incertitude

0 0( , ) ( ) ( )j jX XI S S i S i S

Recherche de la partition S1

Page 56: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

56

Description de l’algorithme SIPINA

• Éclatement : Un segment t de Si est divisé à l’aide d’un prédicteur X en I segments th = t[X = h]. D’où : Si+1 = Si – {t} + {t1}+…+{tI}.

• Fusion : On fusionne les deux segments tq et tr de Si. D’où : Si+1 = Si – {tq}{tr } + tqtr .

• Partition admissible : Si+1 est admissible si

Opérations de base pour le passage de la partition Si à Si+1

1 1( , ) ( ) ( ) 0i i i iI S S i S i S Gain sur l’incertitude

Page 57: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

57

Exemples des opérations de base sur Titanic

Éclatement :

Fusion :

S1

S3

Page 58: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

58

Exemple sur Titanic

Fusion :

Page 59: 1 Michel Tenenhaus Méthodes de segmentation. 2 Les données Réponse : Y - Numérique - Ordinale - Nominale Prédicteurs : X 1,…, X k - Numérique - Ordinale.

59

Description de l’algorithme SIPINA

• Fusion : On fusionne les deux segments de Si conduisant à une partition S'i+1 maximisant le gain sur l’incertitude I(Si,S'i+1). Si gain > 0, on pose Si+1=

S'i+1 et on repasse une étape de fusion. Sinon, passage à la phase suivante.• Fusion-éclatement : On construit toutes les partitions obtenues par fusion de

deux segments de Si. Pour chacune de ces partitions, on recherche le prédicteur conduisant au meilleur éclatement des deux segments fusionnés. On retient la partition à gain sur incertitude maximum. Si cette partition est admissible, elle définit Si+1. et on retourne à l’étape Fusion. Sinon on passe à la phase suivante.

• Éclatement : Pour chaque segment de Si, on recherche la meilleure partition admissible obtenue par éclatement à l’aide d’un prédicteur. On retient celle qui conduit au meilleur gain sur l’incertitude. Si cette meilleure partition admissible existe, elle définit Si+1 et on repart en phase 1. Sinon le processus s’arrête et Si est optimale.

Passage de la partition Si à Si+1