Post on 03-Apr-2015
Méthodes Statistiques
Michel Tenenhaus
2
STATISTIQUE ?
Extraire des connaissances à partir de données pour décrire, expliquer, ou prévoir.
Simplifier une réalité complexe à l’aide de graphiques.
Simplifier une réalité complexe à l’aide de modèles mathématiques.
Outils de manipulation de grosses bases de données pour identifier et segmenter la clientèle d’une entreprise et orienter ses choix stratégiques (data mining).
Décrire ?
4
Exemple 1Enquête FT sur les MBA 2001
100 MBA12 caractéristiques de l’école :
Women Faculty, Women Students, Women board,
International Faculty, Int. Stud., Int. Board, Int. Mobility, Int. Course content, Languages, Faculty with PhD, PhD grad. Rating, Research rating
2 caractéristiques des diplômés :Salary today (weighted), Salary % increase
Extrait des données de l’enquête FT sur les MBA 2001
1 University of Pennsylvania: Wharton 76 151714 225.4 ... 100 100 91
2 Harvard Business School 75 164152 216.0 100 47 100
3 Stanford University GSB 73 171318 205.5 92 76 85
4 University of Chicago GSB 70 143935 245.4 97 56 86
5 Columbia University GSB 70 140886 250.5 94 36 72
6 MIT: Sloan 69 148986 200.0 100 68 70
7 Insead 68 127190 143.4 98 15 46
8 London Business School 65 113538 159.9 97 47 63
9 Northwestern University: Kellogg 65 130101 191.6 100 68 53
10 New York University: Stern 64 119780 203.8 96 73 62
11 IMD 62 126656 119.5 96 0 22
... ... ...
51 Arizona State University 48 96748 143.1 100 26 42
52 HEC 48 100284 109.9 ... 73 25 353 Babson College: FW Olin 47 94037 164.4 90 0 16
53 Rice University: Jones 47 101105 162.6 95 0 25
55 Thunderbird 47 81483 148.7 87 0 17
... ...
61 ESCP-EAP 46 83401 75.2 80 0 2
... ... ... ... ...
67 IEP 46 83243 75.7 100 8 8
... ... ...
100 Norwegian School of Management 38 58978 74.0 86 2 11
Rank 2001 School Name FT ScoreSalary
weightedSalary
Increase ...
Faculty withdoctorates
(%)FT Doctoral
ratingFT Research
rating
Analyse factorielle (ACP)des MBA
1
2
0
Harvard
HEC
**
Warwick
*
X1 = % Women Faculty
X2 = % WomenStudent
X14 = Salaryincrease . . .
Analyse Factorielle des MBA : Carte des MBA
Analyse réalisée sur les 67 premiers MBA
Analyse Factorielle des MBACarte des caractéristiques utilisées pour l’analyse
Les variables fléchées en pointillés sont illustratives.
Conclusion : HEC troisième MBA non anglo-saxon
FT Research rating
120100806040200-20
Sa
lary
we
igh
ted
180000
160000
140000
120000
100000
80000
60000
40000
US/UK/Autre
Autre
UK
US
Total Population
HEC
Dartmouth
IMD
LBS
INSEAD
MIT
StanfordHarvard
Wharton
Exemple 2 : les races canines
Race Taille Poids Vitesse Intell. Affect. Agress. Fonction123456789101112131415161718192021222324252627
BeauceronBassetBerger-AllemandBoxerBull-DogBull-MastiffCanicheChihuahuaCockerColleyDalmatienDobermanDogue AllemandEpagneul BretonEpagneul FrançaisFox-HoundFox-TerrierGrd Bleu de GascogneLabradorLévrierMastiffPékinoisPointerSaint-BernardSetterTeckelTerre-Neuve
TA++TA-TA++TA+TA-TA++TA-TA-TA+TA++TA+TA++TA++TA+TA++TA++TA-TA++TA+TA++TA++TA-TA++TA++TA++TA-TA++
PO+PO-PO+PO+PO-PO++PO-PO-PO-PO+PO+PO+PO++PO+PO+PO+PO-PO+PO+PO+PO++PO-PO+PO++PO+PO-PO++
V++V-V++V+V-V-V+V-V-V++V+V++V++V+V+V++V+V+V+V++V-V-V++V-V++V-V-
INT+INT-INT++INT+INT+INT++INT++INT-INT+INT+INT+INT++INT-INT++INT+INT-INT+INT-INT+INT-INT-INT-INT++INT+INT+INT+INT+
AF+AF-AF+AF+AF+AF-AF+AF+AF+AF+AF+AF-AF-AF+AF-AF-AF+AF-AF+AF-AF-AF+AF-AF-AF-AF+AF-
AG+AG+AG+AG+AG-AG+AG-AG-AG+AG-AG-AG+AG+AG-AG-AG+AG+AG+AG-AG-AG+AG-AG-AG+AG-AG-AG-
UtilitéChasseUtilitéCompagnieCompagnieUtilitéCompagnieCompagnieCompagnieCompagnieCompagnieUtilitéUtilitéChasseChasseChasseCompagnieChasseChasseChasseUtilitéCompagnieChasseUtilitéChasseCompagnieUtilité
Le tableau disjonctif complet
Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilité__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________
Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0Lévrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1Pékinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
xijl = 1 si l’individu i possède la modalité l de la variable j = 0 sinon
Analyse factorielle du tableau disjonctif complet Modalité au barycentre des chiens la possédant
Classification ascendante hiérarchique des chiens (sur le tableau disjonctif complet)
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
bull-dog 5 teckel 26 chihuahua 8 pékinois 22 caniche 7 cocker 9 fox-terrier 17 epagneul breton 14 labrador 19 boxer 4 dalmatien 11 dogue allemand 13 mastiff 21 saint-bernard 24 terre-neuve 27 bull-mastiff 6 berger allemand 3 dobermann 12 beauceron 1 pointer 23 setter 25 levrier 20 epagneul français 15 colley 10 fox-hound 16 grd bleu de gasc 18 basset 2
Visualisation de la classification des chiens en 4 groupes
Facteur 1
420-2-4
Fa
cte
ur
2
4
3
2
1
0
-1
-2
-3
-4
terre-neuveteckel
setter
saint-bernard
pointer
pékinois
mastiff
levrier
labrador
grd bleu de gasc
fox-terrier
fox-hound
epagneul français
epagneul breton
dogue allemand
dobermann
dalmatien
colley
cocker
chihuahua
caniche
bull-mastiff
bull-dog
boxer
berger allemand
basset
beauceron
Exemple 3 : Les signes de ponctuation chez Zola
Roman ! ? , ; : - 1. Thérèse Raquin 3468 236 138 76 6195 691 168 285 543 2. Madeleine Ferrat 5131 362 236 245 8012 922 291 518 1115 3. La fortune des Rougon 6157 238 534 229 11346 936 362 711 1301 4. La curée 4958 443 357 232 11164 738 364 679 1200 5. Le ventre de Paris 5538 534 426 232 13234 1015 318 734 1201 6. La conquête de Plassans 6292 943 756 512 11585 1285 402 1432 1916 7. La faute de l'abbé Mouret 6364 679 859 462 13948 634 377 1067 1564 8. Son excellence Eugène Rougon 7258 728 1002 496 14295 889 543 1469 1907 9. L'assommoir 7820 769 1929 443 19244 1399 436 995 2272 10 Une page d'amour 6206 843 918 492 11953 647 347 1235 1409 11. Nana 7821 1007 1796 611 17881 1087 509 1523 1797 12. Pot Bouille 6875 1045 1873 651 17044 912 675 1669 1935 13. Au bonheur des dames 6916 808 1313 651 18402 972 642 1531 2114 14. La joie de vivre 5803 710 972 623 13917 602 420 1142 1590 15. Germinal 7944 606 1463 729 21388 908 621 1362 2083 16. L'Œuvre 5000 774 1692 668 18292 811 566 1107 1489 17. La terre 6979 957 2307 796 23417 947 657 1681 2113 18. Le rêve 3052 292 385 237 9551 345 230 416 650 19. La bête humaine 5484 601 929 557 18264 673 467 957 1721 20. L'argent 5022 850 1235 569 19267 684 399 1049 1677 21. La débâcle 7440 860 1833 690 26482 832 564 1398 2197 22. Le docteur Pascal 4586 621 1072 464 15598 462 315 955 1218
Analyse Factorielle des Correspondances
Exemple 4 : Analyse factorielle d’un tableau de distances
Londres Stock-holm
Lis-bonne Madrid Paris
Amster-dam Berlin Prague Rome Dublin
Londres 0 Stockholm 569 0 Lisbonne 667 1212 0 Madrid 530 1043 201 0 Paris 141 617 596 431 0 Amsterdam 140 446 768 608 177 0 Berlin 357 325 923 740 340 218 0 Prague 396 423 882 690 337 272 114 0 Rome 569 787 714 516 436 519 472 364 0 Dublin 190 648 714 622 320 302 514 573 755 0
Distances entre 10 villes européennes (en Miles)
Utilisation de ALSCAL
Carte de l’Europe
AXE1
3210-1-2-3
AX
E2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Dublin
Rome
BerlinMadrid
Lisbonne Stockholm
Londres
Nord
Sud
Oue
st
Est
AmsterdamParis
Prague
AXE1
3210-1-2-3
AX
E2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Dublin
Rome
BerlinMadrid
Lisbonne Stockholm
Londres
Nord
Sud
Oue
st
Est
AmsterdamParis
Prague
Qualité du résultat
Distance reconstituée
543210
Dis
tan
ce o
bse
rvé
e
1400
1200
1000
800
600
400
200
0 Rsq = 1.0000
Exemple 5 : Analyse des proximités
Les données
Un tableau de similarités sij entre n objets
Problème
On recherche n points {x1,…,xn} dans un plan tels que
les contraintes
soient respectées au mieux.
' ' ' '( , ) ( , )ij i j i j i js s d x x d x x
Signal A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0
A 92 4 6 13 3 14 10 13 46 5 22 3 25 34 6 6 9 35 23 6 37 13 17 12 7 3 2 7 5 5 8 6 5 6 2 3 A
B 5 84 37 31 5 28 17 21 5 19 34 40 6 10 12 22 25 16 18 2 18 34 8 84 30 42 12 17 14 40 32 74 43 17 4 4 B
C 4 38 87 17 4 29 13 7 11 19 24 35 14 3 9 51 34 24 14 6 6 11 14 32 82 38 13 15 31 14 10 30 28 24 18 12 C
D 8 62 17 88 7 23 40 36 9 13 81 56 8 7 9 27 9 45 29 6 17 20 27 40 15 33 3 9 6 11 9 19 8 10 5 6 D
E 6 13 14 6 97 2 4 4 17 1 5 6 4 4 5 1 5 10 7 67 3 3 2 5 6 5 4 3 5 3 5 2 4 2 3 3 E
F 4 51 33 19 2 90 10 29 5 33 16 50 7 6 10 42 12 35 14 2 21 27 25 19 27 13 8 16 47 25 26 24 21 5 5 5 F
G 9 18 27 38 1 14 90 6 5 22 33 16 14 13 62 52 23 21 5 3 15 14 32 21 23 39 15 14 5 10 4 10 17 23 20 11 G
H 3 45 23 25 9 32 8 87 10 10 9 29 5 8 8 14 8 17 37 4 36 59 9 33 14 11 3 9 15 43 70 35 17 4 3 3 H
I 64 7 7 13 10 8 6 12 93 3 5 16 13 30 7 3 5 19 35 16 10 5 8 2 5 7 2 5 8 9 6 8 5 2 4 5 I
J 7 9 38 9 2 24 18 5 4 85 22 31 8 3 21 63 47 11 2 7 9 9 9 22 32 28 67 66 33 15 7 11 28 29 26 23 J
K 5 24 38 73 1 17 25 11 5 27 91 33 10 12 31 14 31 22 2 2 23 17 33 63 16 18 5 9 17 8 8 18 14 13 5 6 K
L 2 69 43 45 10 24 12 26 9 30 27 86 6 2 9 37 36 28 12 5 16 19 20 31 25 59 12 13 17 15 26 29 36 16 7 3 L
M 24 12 5 14 7 17 29 8 8 11 23 8 96 62 11 10 15 20 7 9 13 4 21 9 18 8 5 7 6 6 5 7 11 7 10 4 M
N 31 4 13 30 8 12 10 16 13 3 16 8 59 93 5 9 5 28 12 10 16 4 12 4 16 11 5 2 3 4 4 6 2 2 10 2 N
O 7 7 20 6 5 9 76 7 2 39 26 10 4 8 86 37 35 10 3 4 11 14 25 35 27 27 19 17 7 7 6 18 14 11 20 12 O
P 5 22 33 12 5 36 22 12 3 78 14 46 5 6 21 83 43 23 9 4 12 19 19 19 41 30 34 44 24 11 15 17 24 23 25 13 P
Q 8 20 38 11 4 15 10 5 2 27 23 26 7 6 22 51 91 11 2 3 6 14 12 37 50 63 34 32 17 12 9 27 40 58 37 24 Q
R 13 14 16 23 5 34 26 15 7 12 21 33 14 12 12 29 8 87 16 2 23 23 62 14 12 13 7 10 13 4 7 12 7 9 1 2 R
S 17 24 5 30 11 26 5 59 16 3 13 10 5 17 6 6 3 18 96 9 56 24 12 10 6 7 8 2 2 15 28 9 5 5 5 2 S
T 13 10 1 5 46 3 6 6 14 6 14 7 6 5 6 11 4 4 7 96 8 5 4 2 2 6 5 5 3 3 3 8 7 6 14 6 T
U 14 29 12 32 4 32 11 34 21 7 44 32 11 13 6 20 12 40 51 6 93 57 34 17 9 11 6 6 16 34 10 9 9 7 4 3 U
V 5 17 24 16 9 29 6 39 5 11 26 43 4 1 9 17 10 17 11 6 32 92 17 57 35 10 10 14 28 79 44 36 25 10 1 5 V
W 9 21 30 22 9 36 25 15 4 25 29 18 15 6 26 20 25 61 12 4 19 20 86 22 25 22 10 22 19 16 5 9 11 6 3 7 W
X 7 64 45 19 3 28 11 6 1 35 50 42 10 8 24 32 61 10 12 3 12 17 21 91 48 26 12 20 24 27 16 57 29 16 17 6 X
Y 9 23 62 15 4 26 22 9 1 30 12 14 5 6 14 30 52 5 7 4 6 13 21 44 86 23 26 44 40 15 11 26 22 33 23 16 Y
Z 3 46 45 18 2 22 17 10 7 23 21 51 11 2 15 59 72 14 4 3 9 11 12 36 42 87 16 21 27 9 10 25 66 47 15 15 Z
1 2 5 10 3 3 5 13 4 2 29 5 14 9 7 14 30 28 9 4 2 3 12 14 17 19 22 84 63 13 8 10 8 19 32 57 55 1
2 7 14 22 5 4 20 13 3 25 26 9 14 2 3 17 37 28 6 5 3 6 10 11 17 30 13 62 89 54 20 5 14 20 21 16 11 2
3 3 8 21 5 4 32 6 12 2 23 6 13 5 2 5 37 19 9 7 6 4 16 6 22 25 12 18 64 86 31 23 41 16 17 8 10 3
4 6 19 19 12 8 25 14 16 7 21 13 19 3 3 2 17 29 11 9 3 17 55 8 37 24 3 5 26 44 89 42 44 32 10 3 3 4
5 8 45 15 14 2 45 4 67 7 14 4 41 2 0 4 13 7 9 27 2 14 45 7 45 10 10 14 10 30 69 90 42 24 10 6 5 5
6 7 80 30 17 4 23 4 14 2 11 11 27 6 2 7 16 30 11 14 3 12 30 9 58 38 39 15 14 26 24 17 88 69 14 5 14 6
7 6 33 22 14 5 25 6 4 6 24 13 32 7 6 7 36 39 12 6 2 3 13 9 30 30 50 22 29 18 15 12 61 85 70 20 13 7
8 3 23 40 6 3 15 15 6 2 33 10 14 3 6 14 12 45 2 6 4 6 7 5 24 35 50 42 29 16 16 9 30 60 89 61 26 8
9 3 14 23 3 1 6 14 5 2 30 6 7 16 11 10 31 32 5 6 7 6 3 8 11 21 24 57 39 9 12 4 11 42 56 91 78 9
0 9 3 11 2 5 7 14 4 5 30 8 3 2 3 25 21 29 2 3 4 5 3 2 12 15 20 50 26 9 11 5 22 17 52 81 94 0
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0
% de Confusion entre Signal 1en ligne etSignal 2en colonne
Exemple :Les codes Morse
Utilisation de M-D-SCAL
3210-1-2
2
1
0
-1
-2
-3
E T
M N
AI
O
G K W
R D
U S
J Q
Z P
Y
C X
L B F V
H
0 9
1 8 2
7 3
6 4
5
Des points vers les traits
De
1 à
5 c
om
posa
ntes
3210-1-2
2
1
0
-1
-2
-3
E T
M N
AI
O
G K W
R D
U S
J Q
Z P
Y
C X
L B F V
H
0 9
1 8 2
7 3
6 4
5
Des points vers les traits
De
1 à
5 c
om
posa
ntes
Qualité de la représentation graphique
• Soit n points {x1,…,xn} dans un plan.
• Définition des disparités :
' ' ' 'ˆ ˆ(1) ij i j ij i js s d d
2ˆ(2) ( ( , ) )i j ijMin d x x d2
2
ˆ( )
0.2392ij ij
i j
iji j
d d
STRESSd
(distance, disparité)
0.8428
Cor
M-D-SCAL recherche les points {x1,…,xn} minimisant le
STRESS
Exemple 6 : Positionnement des cigarettes
Marque 1 2 3 4 5 6 7 8 9 10 11 12 13 56
1 Air France 100 12 5 33 29 5 7 25 6 6 37 4 8 25
2 Ariel 12 100 74 8 6 2 6 2 10 10 1 3 8 0
3 Ariel 100 5 74 100 6 10 8 9 2 7 7 3 3 11 2
4 Balto 33 8 6 100 53 9 19 10 41 31 12 19 17 11
5 Bastos légère 29 6 10 53 100 7 21 20 18 18 28 5 10 21
6 Benson & Hedges 5 2 8 9 7 100 67 2 12 19 3 40 37 2
7 Black & White 7 6 9 19 21 67 100 3 11 22 3 40 52 3
8 Boyard Maïs 25 2 2 10 20 2 3 100 6 4 58 3 4 81
9 Camel 6 10 7 41 18 12 11 6 100 82 10 24 15 6
10 Camel filtre 6 10 7 31 18 19 22 4 82 100 8 25 21 6
11 Celtique 37 1 3 12 28 3 3 58 10 8 100 4 6 71
12 Craven A 4 3 3 19 5 40 40 3 24 25 4 100 45 5
13 Craven A Export 8 8 11 17 10 37 52 4 15 21 6 45 100 5
56 Boyard blanc 25 0 2 11 21 2 3 81 6 6 71 5 5 100
- Chaque personne interrogée construit sa typologie des 56 marques.- % de personnes mettant les marques i et j dans le même groupe.
Kool 34 Reyno 46 Ariel 2 Royale menthol 52 Craven A menthol 15 Peter Stuyvesant menthol 40 Française menthol 22 Ariel 100 3 Royale extra longue menthol 51 Royale club 49 Royale extra-longue 50 Royale 48 Balto 4 Flash 18 Bastos légère 5 Marigny 36 Flint 19 Rallye 45 Week-end 53 Camel 9 Camel filtre 10 Benson & Hedges 6 Black & White 7 Dunhill international 17 Craven A 12 Players navycut 44 Craven A export 13 Craven A filtre 14 Rothmans king size 47 Players gold leafe 43 Marlboro 35 Winston rigide souple 55 Peter Stuyvesant 39 Kent rigide souple 32 Kent 100 mm de luxe 33 Winston 100 mm 54 Peter Stuyvesant luxury 41 Pall Mall 100 mm 37 Philips Morris 100 mm 42 Pall Mall king size 38 Fontenoy 20 Française 21 Boyard maïs 8 Boyard blanc 56 Celtique 11 Gitane blanc 29 Gitane filtre blanc 30 Disque bleu 16 Gauloise filtre 26 Gauloise 24 Gauloise grand format 27 Gitane maïs 31 Gauloise doux 25 Gauloise Maryland 28 Gallia 23 Air France 1
Groupe 1
Groupe 5
Groupe 3
Groupe 4.1
Groupe 4.2
Groupe 4
Groupe 2
26
Groupe 1
Groupe 2
Groupe 3
Groupe 4Groupe 5
27
Axe 2
Groupe 1
Groupe 3
Groupe 4
Groupe 2
Groupe 5
Exemple 7 : Jus d’orange PAMPRYL TROPICANA FRUIVITA JOKER TROPICANA PAMPRYL ambiant ambiant réfrigéré ambiant réfrigéré réfrigéré ________ _________ _________ ________ _________ _________ Glucose 25.32 17.33 23.65 32.42 22.70 27.16 Fructose 27.36 20.00 25.65 34.54 25.32 29.48 Saccharose 36.45 44.15 52.12 22.92 45.80 38.94 Pouvoir sucrant 89.95 82.55 102.22 90.71 94.87 96.51 Ph brut 3.59 3.89 3.85 3.60 3.82 3.68 Ph après centrifugation 3.55 3.84 3.81 3.58 3.78 3.66 Titre 13.98 11.14 11.51 15.75 11.80 12.21 Acide citrique .84 .67 .69 .95 .71 .74 Vitamine C 43.44 32.70 37.00 36.60 39.50 27.00 Intensité odeur 2.82 2.76 2.83 2.76 3.20 3.07 Typicité odeur 2.53 2.82 2.88 2.59 3.02 2.73 Caractère pulpeux 1.66 1.91 4.00 1.66 3.69 3.34 Intensité du goût 3.46 3.23 3.45 3.37 3.12 3.54 Caractère acide 3.15 2.55 2.42 3.05 2.33 3.31 Caractère amer 2.97 2.08 1.76 2.56 1.97 2.63 Caractère sucré 2.60 3.32 3.38 2.80 3.34 2.90 Juge 1 2.00 2.00 3.00 2.00 4.00 3.00 Juge 2 1.00 3.00 3.00 2.00 4.00 1.00 Juge 3 2.00 3.00 4.00 2.00 3.00 1.00 . . . Juge 96 3.00 3.00 4.00 2.00 4.00 1.00
X1 = Instrumental, X2 = Sensoriel, X = [X1, X2], Y = Hédonique
Biplot des caractéristiques des jus d’oranges
Axe 1
6420-2-4
Axe
2
3
2
1
0
-1
-2
-3
-4
-5Juge 1
Pampryl réfrigéré
Tropicana réfrigéré Joker ambiant
Pampryl ambiant
Fruivita réfrigéré
Tropicana ambiant
PREFMAP : Modèle vectoriel
Max Cor(Notes observés, Projections)
Carte de préférence
1
23
45
6
7
8
9
10
11
1213
14
1516 17
18
19
2021
22
23
24
25
26
27
2829
30
31
3233
34
35
3637
38
39
40 41
42
4344
45
46
47
48
4950
51
52
53
54
55
56
5758
59
60
61
62
63
64
65
66
67
68
69
70
717273
74
75
76
77
78
79
80
81
82
83
84
85
86
8788
8990
9192
93
94
9596
Pampryl ambiant
Tropicana ambiant
Fruivitaréfrigéré
Joker ambiant
Tropicana réfrigéré
Pamprylréfrigéré
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5 -4 -3 -2 -1 0 1 2 3 4 5
axe 1
a
xe 2
Expliquer ?
Salaire des professeurs duGroupe HEC
Compta-Contrôle 32.5 46 M 1 0 0 0 4 1
Compta-Contrôle 32.0 46 M 1 0 0 0 4 1
Compta-Contrôle 31.0 48 M 1 0 1 1 4 1
Compta-Contrôle 30.0 52 M 0 0 0 0 4 1
Compta-Contrôle 30.0 50 M 1 1 0 1 4 4
Compta-Contrôle 30.0 62 M 0 0 0 1 4 1
Compta-Contrôle 29.5 50 M 1 0 0 0 4 2
Compta-Contrôle 29.5 54 M 1 0 0 0 3 3
Compta-Contrôle 28.5 51 M 0 1 0 0 4 1
.... ... ... ... ... ... ... ... ... ...
S.P.E. 36.0 48 M 1 1 0 1 4 1
S.P.E. 36.0 52 M 1 0 1 1 4 2
S.P.E. 36.0 60 M 0 1 0 1 4 2
S.P.E. 35.0 55 M 0 0 0 0 4 1
S.P.E. 33.5 48 M 1 0 0 0 4 1
S.P.E. 31.5 46 M 1 0 0 0 4 2
S.P.E. 31.0 51 M 0 0 0 1 3 2
S.P.E. 28.5 48 M 0 0 0 0 4 1
S.P.E. 28.5 38 M 1 0 0 0 4 5
S.P.E. 27.5 51 M 1 0 0 0 4 1
S.P.E. 26.5 51 M 0 1 0 0 2 2
S.P.E. 22.0 31 M 1 0 0 0 4 5
S.P.E. 19.5 36 M 0 0 0 0 3 4
S.P.E. 17.0 30 M 0 0 0 0 4 4
S.P.E. 16.0 35 M 0 0 1 0 4 4
1
2
3
4
5
6
7
8
9
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
DEPARTEMENT CRAN AGE SEXE HEC DOC PHD DIRECT PEDAGO RECH
Salaire en fonction de l’age
AGE
706050403020
CR
AN
40
30
20
10
0
HEC
OUI
NON
Pédagogie et HEC
HEC
OUINON
Co
un
t40
30
20
10
0
PEDAGOGIE
1
2
3
4
24
37
5
17
11
2
Recherche et HEC
HEC
OUINONC
ou
nt
100
90
80
70
60
50
40
30
20
10
0
RECHERCHE
5
4
3
2
1
179
14
15
7
19
21
18
4139
HEC
OUINON
Co
un
t
30
20
10
0
RECHERCHE
1
2
3
4
5
56
4
10
2
13
6
12 12
26
Modèle de salaire des professeurs
0 1 2 3 4
107
5 6 118
129
13PédagogieRecherche
11
22
33
44
5
Cran Age HEC Doctorat PhD
00
Directeur Homme
Estimation du modèle par la méthode des moindres carrés
Un paramètre est significativement différent de 0 si son intervallede confiance ne contient pas 0.
Coefficientsa
-12.792 4.120 -3.105 .003 -20.988 -4.596
.557 .053 10.495 .000 .451 .662
2.593 .938 2.764 .007 .727 4.460
.972 .999 .974 .333 -1.014 2.959
1.197 1.186 1.009 .316 -1.162 3.556
2.685 1.064 2.524 .014 .569 4.801
1.163 1.523 .764 .447 -1.867 4.193
6.448 2.898 2.225 .029 .682 12.214
7.786 2.809 2.772 .007 2.199 13.374
9.322 2.728 3.417 .001 3.895 14.750
1.900 1.079 1.761 .082 -.247 4.048
1.889 1.222 1.546 .126 -.542 4.320
2.200 1.306 1.684 .096 -.398 4.798
5.495 1.444 3.806 .000 2.623 8.367
(Constant)
AGE
HEC
DOC
PHD
DIRECT
HOMME
P2
P3
P4
R2
R3
R4
R5
Model1
B Std. Error
UnstandardizedCoefficients
t Sig. Lower Bound Upper Bound
95% Confidence Interval for B
Dependent Variable: CRANa.
Estimation du modèle par la méthode des moindres carrés
PédagogieRecher
11
22
33
44
5
Cran théorique -12.792 .557Age 2.593HEC .972Doctorat
1.197PhD 2.685Directeur 1.163Homme
00
1.9006.448
1.8897.786
2.2009.322
5.495
che
Qualité du modèle
Cran théorique
40302010
Cra
n o
bse
rvé
40
30
20
10
0
41
Référendum sur la constitution européenne
Vote constitution européenne
Sexe Classe d'age Proximité politique
Dernier diplôme Confiance
en son avenir
Oui Femme 25-34 PS Bac+3/4 Confiant+ Oui Homme 60 et + PS < Bac Confiant- Oui Femme 35 à 44 ans UMP Bac+3/4 Nsp Oui Homme 45-59 PS Bac Confiant++ Oui Femme 35 à 44 ans UMP Bac+5/Grande école Confiant++ Oui Homme 25-34 UMP Bac Confiant+ Oui Femme 25-34 UMP Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+5/Grande école Confiant+ Oui Femme 35 à 44 ans UDF Pas de diplôme Confiant+ Oui Homme 45-59 UDF < Bac Confiant-- Oui Homme 25-34 UMP Bac+5/Grande école Confiant+ Oui Homme 60 et + UMP < Bac Confiant+ Oui Femme 35 à 44 ans PS < Bac Confiant+ Oui Homme 18-24 UMP Bac+3/4 Confiant- Oui Femme 35 à 44 ans PS Bac+2 Confiant- Oui Femme 18-24 Verts Bac Confiant++ Oui Femme 60 et + UMP < Bac Confiant+ Oui Homme 35 à 44 ans PS Bac+2 Confiant+ Oui Homme 60 et + UMP < Bac Confiant+
42
Arbre de segmentation avec Answer Tree
Prévoir ?
La méthode de Winters
Exemple : Ventes de Champagne
1962 … 1968 1969 1970JanvierFévrierMarsAvrilMaiJuinJuilletAoûtSeptembreOctobreNovembreDécembre
281526722755272129463036228222122922430157647312
26392899337037402927398642171738522164249842
13076
39343162428646765010487446331649595169819851
12670
434835644577478846185312429814315877
On exclut les douze derniers mois pour valider la méthode.
Ventes de Champagne
On exclut les douze derniers mois pour valider la méthode.
Date
CH
AM
PA
GN
E
16000
14000
12000
10000
8000
6000
4000
2000
0
Résultats sur l’historique utilisé(prévision à l’horizon 1)
Date
16000
14000
12000
10000
8000
6000
4000
2000
0
Champagne
Prévision
Résultats sur la période test (prévision sur l’horizon 1 à 12)
Date
14000
12000
10000
8000
6000
4000
2000
0
Champagne
Prévision
48
GALTON, 1908
Some people hate the very name of Statistics, but I find them full of beauty and interest. Whenever they are not brutalized, but delicatelyhandled by the higher methods, and are warily interpreted, their power of dealing with complicated phenomena is extraordinary.They are the only tools by which an opening can be cut through the formidable thicket of difficulties that bars the path of those who pursue the Science of
man.
Proverbe chinois
J ’entends et j ’oublie.Je vois et je me souviens.Je fais et je comprends.
耳听为虚眼见为实身教重于言传
50
Mark Rothko (1903 - 1970)
Le travail évolue à mesure qu’il avancevers plus de clarté, vers l’élimination
detous les obstacles entre le peintre etl’idée, et entre l’idée et le spectateur.
1949
1952
1956
1960
1968
60
Panorama des méthodes statistiques
Recueil des données- Sondage
- Plan d’expériences
Méthodes explicatives
Y = f(X1,…,Xk)
Méthodes descriptives- Visualisation
- Classification
Méthodes de prévision
Xt = f(Xt-1, Xt-2,…)
61
Types de données
Un bloc
X1 … Xp1...i...n
Deux blocs X Y
K blocs
X1 XK...
Les variablespeuvent êtrenominales,ordinales,ou numériques
62
Un bloc X : Visualiser et classer
X1 … Xp1...i...n
Y1
Y2
**
*** *
*
* ***** ** **
*
*** ** *
Cor(Xj,Y1)
Cor(Xj,Y2)
X1
X2X3
X4X5
X6
X7
63
Visualiser
Variables quantitatives
- Analyse en composantes principales (orientée individus)- Analyse factorielle (orientée variables)
Variables qualitatives
- Analyse des correspondances multiples- ACP des variables indicatrices des modalités
Variables quantitatives / qualitatives
- ACP des variables quantitatives et des indicatrices des modalités- Codage optimal des variables qualitatives (Proc PRINQUAL)
64
Classer (Construire des groupes)
Individus- Classification Ascendante Hiérarchique
- Méthode des centres mobiles (Nuées dynamiques)
Variables- CAH des variables (SPSS)
- Proc VARCLUS (SAS)
65
Deux blocs : X et Y
X1 … Xp
1...i...n
Y1 … Yq
1...i...n
Prédicteurs Réponses
Modéliser
Yk = fk(X1,…, Xp) +
Visualiser
Y1
Y2
Y4
Y3
X2
*
X3
*
X5
*
X4
* X1
*
66
Méthodes explicatives : Une réponse Y
Loi de probabilité de la réponse dans la famille exponentielle(Binomiale, Poisson, Normale, Gamma, Gauss Inverse, ...) :
Modèle linéaire généralisé (Proc GENMOD)
X1, X2, …, Xk
Y Quantitatives Qualitatives Mélange
Quantitatif Régression multiple Analyse de la variance Analyse de la covariance
Qualitatif - Régression Logistique- Segmentation- Analyse factorielle
discriminante- Analyse discriminante bayesienne
- Régression Logistique- Segmentation- Analyse factorielle
discriminante
- Régression Logistique- Segmentation- Analyse factorielle
discriminante
Variable à expliquer
Variables explicatives
Réseaux de neurones :
Optimiser la prévision
pour les modèles non
linéaires (!!!!)
67
Méthodes explicatives : plusieurs réponses Y
X = Prédicteurs , Y = Réponses
- Analyse des redondances
- Régression PLS
X et Y jouent un rôle symétrique
- Analyse canonique
- Analyse inter-batteries de Tucker
68
K blocs X1, X2, …, XK
Rôle symétrique
X1
XK
.
.
.
X1….. XK
- Analyse canonique généralisée (Horst, Carroll)- Analyse factorielle multiple (Escofier & Pagès)- Analyse factorielle confirmatoire- Analyse factorielle confirmatoire du second ordre
69
Modélisation de relations structurelles sur variables latentes
ECSI Path model for a“ Mobile phone provider”
Image
Perceivedvalue
CustomerExpectation
Perceivedquality
Loyalty
Customersatisfaction
Complaint
.493 (.000)
R2=.243
.545 (.000)
.066 (.314)
.037 (.406)
.153 (.006)
.212 (.002)
.540(.000)
.544 (.000)
.200 (.000)
.466(.000)
.540(.000)
.05 (.399)
R2=.297
R2=.335 R2=.672
R2=.432
R2=.292
Approcheconfirmatoire
LISREL (ML):- Proc CALIS (SAS)- AMOS (SPSS)
Approcheexploratoire
PLS Path modelling :- PLS-Graph (Wynne Chin)
Inégalité économique et instabilité politique (Données de Russett, 1964)
Inégalité économiqueInégalité agricoleGINI : Inégalité dans la répartition
des terresFARM : % fermiers possédant la
moitié des terres (> 50%)RENT : % fermiers locataires
Développement industrielGNPR : PNB par habitant ($ 1955)LABO : % d ’actifs dans
l’agriculture
Instabilité politiqueINST : Instabilité de
l ’exécutif (45-61)ECKS : Nb de conflits
violents entre communautés (46-61)
DEAT : Nb de morts dans des manifestations (50-
62)D-STAB : Démocratie stableD-INS : Démocratie instableDICT : Dictature
Inégalité économique et instabilité politique (Données de Russett, 1964)
47 pays
GiniFarmRentGnprLaboInstEcksDeatrégime
Argentine86.398.232.93742513.6572172
Australie92.999.6*12151411.3001
Autriche 74.097.410.75323212.8402
France 58.386.126.010462616.34612
Yougoslavie43.779.80.0297670.0903
1 = Démocratie stable2 = Démocratie instable3 = Dictature
Inégalité économique et instabilité politique
GINI
FARM
RENT
GNPR
LABO
Inégalité agricole (X1)
Développement industriel (X2)
ECKS
DEAT
D-STB
D-INS
INST
DICT
Instabilitépolitique (X3)
1
2
3
++
+
+
-
+++-
++
+
-
Variablemanifesteobservable
Variablelatente nonobservable
Utilisation de PLS-Graph de Wynne Chin
Estimation des variables latentes par la méthode PLS
(Mode A, Schéma Centroïde)
On maximise le critère :
1 1 1 1 3 3 2 2 2 2 3 3
3 3 3 3 1 1 3 3 2 2
( ) | ( , ) | ( ) | ( , ) |
( )(| ( , ) | | ( , ) |)
Var X w Cor X w X w Var X w Cor X w X w
Var X w Cor X w X w Cor X w X w
sous les contraintes ||w1|| = ||w2|| = ||w3|| = 1
On estime les variables latentes j par Yj = Xjwj.
Les variables latentes sont ensuite réduites.
75
Intérêt du critère
Cette méthode réalise un compromis entre :
- des ACP de chaque bloc
- des analyses canoniques des blocs reliés entre eux
Résultats
Résultats Latent variables ======================================== Ineg_agri Dev_ind Inst_pol ---------------------------------------- Argentine 0.964 0.238 0.755 c2 1.204 1.371 -1.617 c3 0.397 0.253 -0.480 c4 -0.812 1.530 -0.846 c5 1.115 -1.584 1.505 c6 0.778 -0.654 0.302 c7 -1.538 1.680 -0.952 c8 1.231 -0.324 0.020 c9 0.812 -0.443 0.817 c10 0.918 -0.484 0.305 c11 0.756 -0.182 1.681 c12 -2.004 0.821 -1.534 . . . c45 1.149 0.252 1.135 c46 -0.212 1.104 -0.494 c47 -2.189 -0.654 0.125 ========================================
Estimation des variables latentes
Y1 Y2 Y3
Argentine 0.96 0.24 0.75
Australie 1.20 1.37 -1.62
Autriche 0.39 0.25 -0.48
France -0.88 0.80 0.56
Yougoslavie -2.19 -0.65 0.13
Régression multiple de Y3 sur Y1 et Y2
R2 = 0.618
Instabilité politique = 0.217 Inégalité agricole – 0.692 Développement industriel
(2.24) (-7.22)
Les t de Student sont obtenus par régression multiple.
Résultats
Carte des pays : Y1 = inégalité agricole , Y2 = développement industriel
Y2 „ƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒ† ‚ ‚ ‚ 2.0 ˆ royaume-uni(1) ** états-unis(1) ˆ ‚ ‚ ‚ ‚ ‚ ‚ ‚ * canada(1) ‚ ‚ ‚ * suisse(1) ‚ ‚ 1.5 ˆ * belgique(1) ‚ ˆ ‚ * suède(1) ‚ australie(1) * ‚ ‚ ‚ * nouv._zélande(1) ‚ ‚ * pays-bas(1) ‚ ‚ ‚ * rfa(2) ‚ 1.0 ˆ * luxembourg(1) ˆ ‚ france(2) ‚ ‚ ‚ * danemark(1) * * norvège(1)‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ 0.5 ˆ ‚ ˆ ‚ ‚ ‚ ‚ * finlande(2) ‚ * autriche(2) ‚ ‚ ‚ italie(2) * * argentine(2)‚ ‚ * irlande(1) ‚ uruguay(1) *venezuela(3) ‚ 0.0 ˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆ ‚ ‚ ‚ ‚ ‚ * cuba(3) ‚ ‚ * pologne(3) ‚ chili(2) * ‚ ‚ * japon(2) ‚ * panama(3) * colombie(2) ‚-0.5 ˆ ‚ grèce(2) * * * costa-rica(2)ˆ ‚ * yougoslavie(3) nicaragua(3)* Espagne(3)*brésil(2) ‚ ‚ ‚ salvador(3)* * * équateur(3) ‚ ‚ * philippines(3) rép_dominic.(3) ‚ ‚ taiwan(3) * guatémala(3) * ‚-1.0 ˆ ‚ pérou(3) * * irak(3) ˆ ‚ sud_vietnam(3) * ** honduras(3) ‚ ‚ ‚ égypte(3) ‚ ‚ ‚ ‚ ‚ * libye(3) ‚-1.5 ˆ * inde(1) ‚ ˆ ‚ ‚ bolivie(3) * ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚ ‚-2.0 ˆ ‚ ˆ ‚ ‚ ‚ ŠƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒˆƒƒŒ -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Y1
80
Méthodes de prévision
Analyse d’une série chronologique- Recherche d’une tendance et de facteurs
saisonniers- Identification de valeurs atypiques
Prévision- Méthodes de lissage (série courte)- Méthode de Box-Jenkins (série longue)
Conclusion générale
« All the proofs of a pudding are in the eating, not in the cooking ».
William Camden (1623)