Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining...
Transcript of Introduction aux statistiques exploratoires€¦ · • Statistiques exploratoires et data mining...
1
Introduction aux statistiques exploratoires
Jean Paul [email protected]
25 octobre 2017
Illustrée avec XLSTAT
www.xlstat.com
2
PLAN
• XLSTAT : qui sommes-nous ?
• Statistiques : catégories
• Rappel : Variables, individus, Statistiques Descriptives
• Vers les statistiques exploratoires : nuage de points coloré par groupe
• Statistiques exploratoires et data mining
• Analyse en Composantes Principales (ACP) : concept et application
• Classification Ascendante Hiérarchique (CAH) : concept et application
Toutes les données de ce webinar ont été inventées
sauf mention contraire
3
Logiciel XLSTAT
XLSTAT est un logiciel d’analyse de
données convivial qui s’intègre à Excel
4
XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante
Thierry Fahmydéveloppe une
alternative user-friendly
pour l’analyse de données :
Naissance d’XLSTAT
Première vente sur
internet
Nouvelle version, Interface : VBA,
Calculs : C++7 langues
Nouveaux produitsNouveau site
Equipe grandissante
Création de la société
Addinsoft
Nouvelles offres
modulaires
XLSTAT 365Version Cloud
pour Excel 365XLSTAT-Free
1993 2000 2009 2016
201520061996
Intégration R
R
2017
5
XLSTAT en quelques chiffres
200+ fonctionnalités statistiques
Réparties dans des solutions généralistes ou
orientées-métier
100k utilisateurs
A travers le monde. Secteurs privé, éducation,
recherche
22 salariés
A l’écoute des utilisateurs
220k visites/mois sur le site web
Tutoriels didactiques en 5 langues
7 langues 10k téléchargements/mois
6
Statistiques : 4
catégories
7
Statistiques : 4 catégories
Description Exploration Tests Modélisation
Je veux résumer des
données grâce à des
calculs ou des
graphiques simples
(moyenne, écart
type, box plot…)
Je veux plonger
facilement dans un gros
jeu de données sans
forcément avoir une
question précise
derrière la tête (ACP,
CAH...)
Je veux accepter /
rejeter une hypothèse
bien précise en
assumant des risques
d’erreur (test t,
ANOVA, khi²,
corrélation...)
Je cherche à comprendre
comment évolue un
phénomène en fonction
d’un ensemble de
paramètres (régression,
ANCOVA, ANOVA)
8
Webinars : prochaines dates
Description Exploration Tests Modélisation
Enregistrement 15 / 11 / 2017Inscription
29 / 11 / 2017Inscription
ANOVA
6 / 12 / 2017Inscription
9
Rappel :
Variables,
individus,
statistiques
descriptives
10
Variables, individus...
Variable
Elément qui peut prendre différentes valeurs
Variable qualitative
Variable qu’on ne peut pas quantifier. Exemples :
catégorie socioprofessionnelle, origine
géographique, type de licence, groupe sanguin...
Variable quantitative
Variable qu’on peut quantifier. Exemples : montant
d’une facture, nb de “j’aime” sur fb, concentration en
sucre, taille...
Individu
Unité statistique élémentaire. Peut être décrit par
des variables. Exemples : clients, personnes sondées,
patients, souris de laboratoires...
11
Tableau de données : plateforme de vente
de chaussures en ligne
Variables
Ind
ivid
us
12
Statistiques DescriptivesOutils courants selon le cas
1 var. qualiTri à plat, mode, graphique en camembert…
1 var. quantiTendance centrale (moyenne / médiane) ;
dispersion (variance / écart type) ; box plot
1 var. quali x 1 var. qualiTri croisé (tableau de contingence)
1 var. quanti x 1 var. quantiNuage de points
1 var. quanti x 1 var. qualiStatistiques quanti par modalité quali ;
graphique avec un box plot par modalité de
variable quali
1 var. quanti x 1 var. quanti x 1 var. qualiNuage de points coloré en fonction des
modalités de la variable quali
13
Vers les
statistiques
exploratoires :
nuage de points
coloré par
groupe
14
Vers les statistiques exploratoires : nuage de points
coloré par groupe
- Montant facture diminue avec temps passé sur le site
- Clients plutoniens passent moins de temps sur le site que les autres
- Martiens et terriens forment un grouperelativement homogène
- ...
15
Imaginez le même raisonnement sur un nombre plus élevé de variables ... Place aux statistiques exploratoires
16
Exemple : Analyse en Composantes Principales (ACP)On veut raisonner de la même manière qu’avec le nuage de points (2D)
mais en utilisant un tableau à plus de 2 colonnes (dimensions)
17
Statistiques
exploratoiresJe veux plonger facilement dans un gros
jeu de données sans forcément avoir une
question précise derrière la tête
18
Statistiques exploratoires : quelques mots
Statistiques exploratoires
Rechercher de l’information dans un jeu de données à plusieurs variables, sans
avoir d’attentes très précises. Font partie du Data Mining
Première utilité : concentrer l’information de gros tableaux de
données sur quelques dimensions
Exemples : Analyse en Composantes Principales, analyse des correspondances
Deuxième utilité : classification (ou segmentation)
Exemples : Classification Ascendante Hiérarchique, k-means
19
Analyse en
Composantes
Principales (ACP)Je veux pouvoir résumer un jeu de
données à plusieurs colonnes sur
quelques graphiques simples
- Les relations entre variablesOn pourra examiner :
- La proximité des individusentre eux
- La caractérisation des individus par les variables
20
ACP : concept
Jeu de données initial
+
Quantitéd’information
-
Jeu de données artificiel synthétisé par l’ACP.
Information redistribuée de manière à en concentrer un maximum sur quelques dimensions (les premières)
Jargon d’ACP :dimension= axe= facteur
information= variabilité= inertie
21
ACP : paramétrage sur XLSTAT
Lien Tutoriel ACP
22
ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations
- Angle aigu : variables positivement liées- Angle droit : variables non liées- Angle obtus : variables négativement liées
La longueur d’un vecteur (d’une
variable) reflète la qualité de sa
représentation dans le plan
considéré (ici F1/F2)
23
ACP : Interprétation des axesGraphique 1 : cercle des corrélations
- F1 est lié :
- Au poids et à la taille (élevés sur la
droite et faibles sur la gauche)
- Au temps passé sur le site (élevé sur
la gauche et faible sur la droite) - F2 est lié :
- A la pointure (élevée en haut et
faible en bas)
24
ACP : à quoi ça ressemble, en réalité ?Graphique 1 : cercle des corrélations ; graphique 2 : observations
Poids+
Taille+
Temps site-
Poids-
Taille-
Temps site+
25
ACP : explorations ...
Le poids total augmente avec la taille Il y a deux groupes d’individus relativementsimilaires (gauche VS droite de l’ACP). Définis par rapport à la taille, le poids et le temps passé sur le site
Le temps passé sur le site diminue avec le poids et la taille
Derrick a de très gros pieds
La pointure n’est pas liée au poids / à la taille Et ainsi de suite...
L’ACP fonctionne avec des variables exclusivement quantitatives. Cliquez ici pour voir d’autresméthodes
26
Focus sur cette notion de groupes
homogènes d’individus détectés sur l’ACP
Selon l’ACP nos individus se divisenten deux groupes (délimités par taille, poids et temps passé sur le site).
Ceci peut nous aider à mieuxpersonnaliser nos campagnesmarketing.
Poids+
Taille+
Temps site-
Poids-
Taille-
Temps site+
Et si les groupes ne pouvaient pas être définis si facilement “à la main”?
27
Classification
Ascendante
Hiérarchique
(CAH)Je veux classer (segmenter) des individus
en groupes (= segments = classes)
homogènes
28
Classification Ascendante Hiérarchique (CAH)EXEMPLE : analyse sensorielle, sondage consommateurs chocolat
Comment répartir les consommateurs en groupes homogènes ?
Illustration avec 2 variables
29
CAH – comment ça marche sur 2 variables
x xx
19 groups18 groups17 groups16 groups15 groups14 groups8 groups9 groups7 groups6 groups5 groups4 groups3 groups2 groups1 group
Choisir un
niveau de
coupage
Segments
(groupes)
maintenant
définis
Age
Evidemment, cela se
généralise sur plus
de 2 variables
30
Classification Ascendante Hiérarchique (CAH)Paramétrage dans XLSTAT
Lien Tutoriel CAH
31
Classification Ascendante Hiérarchique (CAH)Ce que ça donne dans XLSTAT :
Plus le “trajet vertical” entre deux individus (ou groupes) est long, Plus les individussont différents
Ici, on pourrait diviser les individus en 3 ou 4 groupeshomogènes
Art
uro
Trac
yJo
rdan
Co
rnel
ius
An
ita
Elen
aC
and
ice
Jake
Juan
aK
rist
enD
ana
Mar
lon
Mo
na
Car
roll
Cri
stin
aH
op
eD
uan
eP
hili
pJo
eEd
mu
nd
Mau
rice
Mar
sha
Sam
Ped
roC
on
rad
Sop
hie
Bry
ant
An
ne
Mel
ind
aK
arla
Cas
eyR
ose
mar
yTa
mi
Do
ris
Sam
uel
Salv
ado
rTr
avis
Ran
dal
lK
evin
Der
ekK
rist
aFr
ank
Jod
yC
lyd
eD
ana
Ro
sem
arie
Cam
ero
nR
oge
rM
ike
Al
Max
Jon
ath
anA
na
Gab
riel
Bec
kyFa
yeA
mel
iaSa
raJe
rom
eD
om
inic
Stac
yJo
nat
ho
nA
lfre
do
Terr
ell
Pat
tiLe
ahP
ablo
Ran
dal
Bra
nd
iEd
ith
Tim
my
Mar
yB
yro
nC
lau
de
Gw
end
oly
nM
ich
eal
Eula
Joey
Bra
nd
on
Eliz
abet
hD
avid
Bo
bb
yC
aro
lC
od
yO
pal
Shel
iaD
on
Alis
on
Will
isIr
vin
Ted
Cec
elia
Shir
ley
Mu
riel
Luke
Wilb
ur
Lisa
Dar
rel
Sher
riSh
eryl
0
50
100
150
200
250
Dis
sim
ilari
té
Dendrogramme
32
Classification Ascendante Hiérarchique (CAH)Division en 3 groupes :
Art
uro
Trac
yJo
rdan
Co
rnel
ius
An
ita
Elen
aC
and
ice
Jake
Juan
aK
rist
enD
ana
Mar
lon
Mo
na
Car
roll
Cri
stin
aH
op
eD
uan
eP
hili
pJo
eEd
mu
nd
Mau
rice
Mar
sha
Sam
Ped
roC
on
rad
Sop
hie
Bry
ant
An
ne
Mel
ind
aK
arla
Cas
eyR
ose
mar
yTa
mi
Do
ris
Sam
uel
Salv
ado
rTr
avis
Ran
dal
lK
evin
Der
ekK
rist
aFr
ank
Jod
yC
lyd
eD
ana
Ro
sem
arie
Cam
ero
nR
oge
rM
ike
Al
Max
Jon
ath
anA
na
Gab
riel
Bec
kyFa
yeA
mel
iaSa
raJe
rom
eD
om
inic
Stac
yJo
nat
ho
nA
lfre
do
Terr
ell
Pat
tiLe
ahP
ablo
Ran
dal
Bra
nd
iEd
ith
Tim
my
Mar
yB
yro
nC
lau
de
Gw
end
oly
nM
ich
eal
Eula
Joey
Bra
nd
on
Eliz
abet
hD
avid
Bo
bb
yC
aro
lC
od
yO
pal
Shel
iaD
on
Alis
on
Will
isIr
vin
Ted
Cec
elia
Shir
ley
Mu
riel
Luke
Wilb
ur
Lisa
Dar
rel
Sher
riSh
eryl
0
50
100
150
200
250
Dis
sim
ilari
té
Dendrogramme
Que faire à présent ?
On pourrait s’amuser à décrire ces groupes
33
Décrire les
groupesDans les résultats de la CAH, on
peut voir l’appartenance des
individus aux différents groupes
(classes) Comment les décrire ?
34
Description des groupes : statistiques
descriptives
Copier / Coller la colonneClasse (résultats CAH)dans le tableau de données
Lien Tutoriel
35
Description des groupes : statistiques
descriptives
Les consommateursdes groupes 1 & 3 sont plus fidèlesaux marques
Les consommateurs du groupe 2 sont plus jeunes
36
Moins confus : graphique en coordonnées
parallèles
Lien Tutoriel
37
Moins confus : graphique en coordonnées
parallèles
Groupe 3 : consommateursâgés, fidèles à la marque, préfèrent les chocolatsamers, achètent moins enligne…
Groupe 2 : consommateursjeunes, peu fidèles à la marque, sensibles au prix…
Conséquences : - Promouvoir les chocolats
amers pour les consommateurs âgés.
- Promouvoir les chocolatsmoins chers pour les jeunes
- …
…
38
L’exploration de jeux de données nous inspire un bon nombre
d’hypothèses... Sont-elles valides ? tests statistiques
Rendez-vous le 15 novembre
Inscription
39
Take Home Message
Description Exploration Tests Modélisation
Je veux accepter / rejeter
une hypothèse bien
précise en assumant des
risques d’erreur (test t,
ANOVA, khi²,
corrélation...)
Description de jeux
de données à 1-3
variables. Peut
aboutir à des
hypothèses.
Je veux plonger
facilement dans un gros
jeu de données sans
forcément avoir une
question précise
derrière la tête (ACP,
CAH...)
40
Statistiques exploratoires :
Take Home Message
Statistiques exploratoires
Permettent d’exploiter facilement des tableaux de données volumineux
Elles donnent une vision synthétique de gros jeux de données
Exemples : Analyse en Composantes Principales, analyse des
correspondances, MDS…
Elles permettent de segmenter des jeux de données
Exemples : Classification Ascendante Hiérarchique, k-means
Lien : choisir un outil de statistique exploratoire en fonction de votre situation
Lien : choisir un outil de classification
41
Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)
Téléchargez la version d’essai de 30 jours
Découvrez nos produits
42
Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat
43
Analyse en Composantes PrincipalesEXEMPLE : analyse sensorielle, sondage consommateurs chocolat
fidélité marque
sensibilité au prix
acheteur en ligne
pref. amer
pref.glacé
pref.croquant
-2
-1
0
1
2
3
4
5
6
-5 -4 -3 -2 -1 0 1 2 3 4 5
F2 (
19
.21
%)
F1 (44.03 %)
Biplot (axes F1 et F2 : 63.25 %)
44
Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome (source des données : plateforme PAPPSO, Paris)
45
Analyse en Composantes PrincipalesEXEMPLE : biostatistique, analyse de protéome