Analyse exploratoire de données
Fabrice Rossi
Télécom ParisTech
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
2 / 41 F. Rossi
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
3 / 41 F. Rossi Introduction
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
Exploiter des données
Que faire d’un paquet de données ?Comment exploiter le contenu d’un entrepôt de données ?
recensement32561personnes15 attributspar personne
Volume classique : milliers à millions de lignes, dizaine àcentaines de colonnesExploration systématique impossible (même pour de petitspaquets de données)
4 / 41 F. Rossi Introduction
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)
2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
Outils d’exploitation
Support informatique et mathématique :• outils d’exploitation des données• but : diminuer la charge cognitive pour l’analyste
Deux grandes classes d’outils :1. exploration
• pas d’idée a priori sur les données• recherche de régularité (dépendances, groupes homogènes,
etc.)2. modélisation
• idée précise sur les données• construction de modèles prédictifs
outil utilisé : R (http://R-project.org/)
5 / 41 F. Rossi Introduction
Analyse exploratoireObjectifs :
• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité
Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :
• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents
020
4060
8010
0
Hei
ght
−6 −4 −2 0 2 4
−20
24
6
PC1
PC
2
6 / 41 F. Rossi Introduction
Analyse exploratoireObjectifs :
• obtenir une vision globale d’un jeu de données• découvrir des formes de régularité
Moyens :• représentations visuelles (et interactives) des données• recherche automatique de régularités :
• corrélation et dépendance entre variables• groupes homogènes (classification)• schémas fréquents
020
4060
8010
0
Hei
ght
−6 −4 −2 0 2 4
−20
24
6
PC1
PC
2
6 / 41 F. Rossi Introduction
ModélisationObjectifs :
• inférer des informations inconnues• prédire l’évolution des données
Moyens :• données d’apprentissage :
• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)
• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets
• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage
Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses
7 / 41 F. Rossi Introduction
ModélisationObjectifs :
• inférer des informations inconnues• prédire l’évolution des données
Moyens :• données d’apprentissage :
• connaître l’évolution d’une grandeur dans le passé pourprédire son évolution future (données historiques)
• connaître une propriété de certains objets (par exemple lesalaire de certains clients) pour inférer sa valeur pour lesautres objets
• méthodes d’apprentissage : construire un modèle à partirdes données d’apprentissage
Stratégie :• analyse exploratoire• formulation d’hypothèses• construction de modèles pour valider les hypothèses
7 / 41 F. Rossi Introduction
Modèle mathématique
On a N observations, les zi ∈ ZModèle statistique/probabiliste
• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec
cette distribution• les variables aléatoires sont indépendantes (en général)
En général• Z = ΠP
p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini
de valeurs possibles non ordonnées)
8 / 41 F. Rossi Introduction
Modèle mathématique
On a N observations, les zi ∈ ZModèle statistique/probabiliste
• il existe une distribution PZ sur Z inconnue• les zi sont des réalisations de variables aléatoires avec
cette distribution• les variables aléatoires sont indépendantes (en général)
En général• Z = ΠP
p=1Zp : P variables pour décrire chaque objet• quand Zp ⊂ R : variable numérique (ou ordonnée)• quand Zp = {a, b, . . .} : variable nominale (un nombre fini
de valeurs possibles non ordonnées)
8 / 41 F. Rossi Introduction
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
9 / 41 F. Rossi Analyses univariées
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
Analyses élémentairesPremière étape d’une analyse exploratoire
• travailler variable par variable• numériquement et graphiquement
Variable numérique• à valeurs dans R• statistiques classiques : moyenne, variance, médiane, etc.• représentations associées : histogramme, boxplot
Variable âge : numérique
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
10 / 41 F. Rossi Analyses univariées
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
11 / 41 F. Rossi Analyses univariées
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
Histogram of dummy.unif
dummy.unif
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Histogram of dummy.unif
dummy.unif
Fre
quen
cy
0.0 0.2 0.4 0.6 0.8 1.0
050
150
11 / 41 F. Rossi Analyses univariées
HistogrammeUn histogramme représente une estimation de ladistribution d’une variablePrincipe de construction :
• division de l’intervalle [min, max] en K sous-intervalles(diverses règles pour K , par exemple ∼ log N)
• dénombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles
• représentation par des barres de surfaces proportionnellesaux décomptes
Attention aux intervalles de longueurs différentes
Histogram of dummy.unif
dummy.unif
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.4
0.8
Histogram of dummy.unif
dummy.unif
Fre
quen
cy
0.0 0.2 0.4 0.6 0.8 1.0
020
060
0
11 / 41 F. Rossi Analyses univariées
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution
“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”
distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
IntérêtsHistogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Âge Temps de travailHistogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Idée générale de ladistribution“irrégularités”distribution complètementatypique
Plus values
12 / 41 F. Rossi Analyses univariées
Limitations
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes
comparaisons difficiles (cf la suite)
13 / 41 F. Rossi Analyses univariées
Limitations
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
presque aucune information :• presque toutes les valeurs sont négatives• quelques valeurs très grandes
comparaisons difficiles (cf la suite)
13 / 41 F. Rossi Analyses univariées
Boxplot
a.k.a. boîte à moustaches ou boîte àpattesReprésentation compacte d’unedistribution
• ligne centrale : médiane• ligne basse : premier quartile• ligne haute : troisième quartile• moustaches :
• le max du min et de la médiane - 1.5l’intervalle interquartile
• le min du max et de la médiane + 1.5l’intervalle interquartile
• points atypiques (outliers) : au delàdes moustaches
2040
6080
Âge
14 / 41 F. Rossi Analyses univariées
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’informationinférence moins précise
plus dépouilléquelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’information
inférence moins précise
plus dépouillé
quelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
Comparaison
Histogram of age
age
Den
sity
0 20 40 60 80 100
0.00
00.
010
0.02
0
2040
6080
Âge
plus d’informationinférence moins précise
plus dépouilléquelques informationstrès précises
15 / 41 F. Rossi Analyses univariées
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :
• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative
• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)
16 / 41 F. Rossi Analyses univariées
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0
• meilleurs choix ici :• 87 % des personnes ont une plus value nulle, 8.3 % positive
et 4.7 % négative• puis statistiques sur les deux groupes (par ex., perte
médiane 1887)
16 / 41 F. Rossi Analyses univariées
Statistiques
Indicateurs classiques :• tendance : moyenne et médiane• dispersion : écart-type, intervalle interquartile
Histogramme des plus values
Plus values
Fre
quen
cy
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
050
0015
000
2500
0
Interprétation parfois délicate :• moyenne = 990• médiane = 0• écart-type = 7410• intervalle interquartile = 0• meilleurs choix ici :
• 87 % des personnes ont une plus value nulle, 8.3 % positiveet 4.7 % négative
• puis statistiques sur les deux groupes (par ex., pertemédiane 1887)
16 / 41 F. Rossi Analyses univariées
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
0 50 100 150 200 250 300 350
0.00
0.02
0.04
0.06
0.08
0.10
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
17 / 41 F. Rossi Analyses univariées
Sens des statistiques
La pertinence de la statistiquedépend de la distributionExemple :
• blogs politiques• graphe des liens entre les
blogs (blogroll)• distribution des degrés des
noeuds
1 2 5 10 20 50 100 200
0.00
10.
005
0.02
00.
050
degree
prob
abili
ty
Degree distribution
degree
Fre
quen
cy
0 100 200 300 400
020
040
060
0
µ = 27.36, σ = 38.42
m = 13, δ = 33
loi puissance : P(x) ' x−α
sans échelle : la moyenneinforme peu
ici α ' 1.27
Adapter les statistiquesaux données
17 / 41 F. Rossi Analyses univariées
Trois points de vue
Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Moyenne : 40.44, Écart-type : 12.35
Médiane : 40, Interquartile : 5
Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures
18 / 41 F. Rossi Analyses univariées
Trois points de vue
Histogramme des heures travaillées par semaine
Heures
Fre
quen
cy
0 20 40 60 80 100
050
0010
000
1500
0
Moyenne : 40.44, Écart-type : 12.35
Médiane : 40, Interquartile : 5
Compléments :• 47 % = 40 heures• 29 % > 40 heures• 24 % < 40 heures
18 / 41 F. Rossi Analyses univariées
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinale
représentation par un diagramme à bâtons :• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :
• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
Variables nominalesvariable nominale (ou qualitative) : variable à valeurs dansun ensemble fini quelconque (les modalités)quand les modalités sont ordonnées : variable ordinalereprésentation par un diagramme à bâtons :
• un bâton par modalité• hauteur proportionnelle à la fréquence de la modalité• ordre arbitraire sauf dans la cas ordinal
Female Male
050
0010
000
2000
0
Divorced Married−civ−spouse Never−married Widowed
040
0080
0012
000
Genre Statut marital
19 / 41 F. Rossi Analyses univariées
LisibilitéDéséquilibre
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
050
0015
000
2500
0
Grand nombre de modalités
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
010
020
030
040
050
060
0
20 / 41 F. Rossi Analyses univariées
LisibilitéDéséquilibre
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
050
0015
000
2500
0
Grand nombre de modalités
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam
010
020
030
040
050
060
0
20 / 41 F. Rossi Analyses univariées
Camembert
Armed−ForcesPriv−house−servProtective−serv
Tech−supportFarming−fishingHandlers−cleanersTransport−moving
?
Machine−op−inspct
Other−service
Sales
Adm−clerical Exec−managerial
Craft−repair
Prof−specialty
représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles
010
0020
0030
0040
00
Armed
−For
ces
Priv−h
ouse
−ser
v
Prote
ctive
−ser
v
Tech
−sup
port
Farm
ing−f
ishing
Handle
rs−c
leane
rs
Trans
port−
mov
ing ?
Mac
hine−
op−in
spct
Other
−ser
vice
Sales
Adm−c
lerica
l
Exec−
man
ager
ial
Craft−
repa
ir
Prof−
spec
ialty
21 / 41 F. Rossi Analyses univariées
Camembert
Armed−ForcesPriv−house−servProtective−serv
Tech−supportFarming−fishingHandlers−cleanersTransport−moving
?
Machine−op−inspct
Other−service
Sales
Adm−clerical Exec−managerial
Craft−repair
Prof−specialty
représentation très classiqueversions “créatives” (3D...)mauvaise solution : lecturedes surfaces et des anglesdifficiles
010
0020
0030
0040
00
Armed
−For
ces
Priv−h
ouse
−ser
v
Prote
ctive
−ser
v
Tech
−sup
port
Farm
ing−f
ishing
Handle
rs−c
leane
rs
Trans
port−
mov
ing ?
Mac
hine−
op−in
spct
Other
−ser
vice
Sales
Adm−c
lerica
l
Exec−
man
ager
ial
Craft−
repa
ir
Prof−
spec
ialty
21 / 41 F. Rossi Analyses univariées
PlanIntroduction
ExplorationModélisationModèle des données
Analyses univariéesVariables numériques
HistogrammeBoxplot et statistiques
Variables nominales
Analyses multivariéesDiagramme de dispersionMatrice de corrélationDiagramme mosaiqueCoordonnées parallèlesInteraction
22 / 41 F. Rossi Analyses multivariées
Analyses conjointes
Relativement peu d’information dans chaque variableAnalyse croisée nécessaireDifficultés :
• vision humaine limitée (2D ou 3D, formes et couleurs)• beaucoup de combinaisons possibles• variables incompatibles
Solutions :• outils de la visualisation de l’information (interaction)• outils de l’apprentissage automatique (automatisation)
23 / 41 F. Rossi Analyses multivariées
Diagramme de dispersion
Deux variables numériques : l’une en fonction de l’autrescatter plot
Superposition : alpha blending
24 / 41 F. Rossi Analyses multivariées
DécorationCompléments du diagramme :
• couleur en fonction d’une autre variable• symbole en fonction d’une autre variable
Assez limité
25 / 41 F. Rossi Analyses multivariées
Matrice de diagrammes
matrice dediagrammes dedispersion
tous les couples devariables numériques
limités à quelquesvariables (croissancequadratique)
décorations possibles
ici : 7 types de verredécrits par 9 variables
26 / 41 F. Rossi Analyses multivariées
Corrélations
Recherche de corrélationsReprésentation graphique dela matrice de corrélation :
• rouge : forte corrélationpositive
• bleu : forte corrélationnégative
Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
27 / 41 F. Rossi Analyses multivariées
Corrélations
Recherche de corrélationsReprésentation graphique dela matrice de corrélation :
• rouge : forte corrélationpositive
• bleu : forte corrélationnégative
Ici :• RI corrélé avec Ca• Mg anti-corrélé avec Al• RI anti-corrélé avec Si• Aucun lien entre Al et Si
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
27 / 41 F. Rossi Analyses multivariées
Corrélation RI et Ca
1.515 1.520 1.525 1.530
68
1012
1416
Corrélation = 0.811
RI
Ca
28 / 41 F. Rossi Analyses multivariées
Corrélation RI et Si
1.515 1.520 1.525 1.530
7071
7273
7475
Corrélation = −0.539
RI
Si
29 / 41 F. Rossi Analyses multivariées
Corrélation Al et Si
0.5 1.0 1.5 2.0 2.5 3.0 3.5
7071
7273
7475
Corrélation = −0.0162
Al
Si
30 / 41 F. Rossi Analyses multivariées
Corrélation Mg et Al
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.48
Mg
Al
31 / 41 F. Rossi Analyses multivariées
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
32 / 41 F. Rossi Analyses multivariées
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.367
Mg
Al
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
Mg et AlHistogramme de Mg
Mg
Fre
quen
cy
0 1 2 3 4
020
4060
80
0 1 2 3 4
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Corrélation = −0.48
Mg
Al
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
Histogramme de Al
Al
Fre
quen
cy
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
020
4060
8010
0
32 / 41 F. Rossi Analyses multivariées
Vision globale
33 / 41 F. Rossi Analyses multivariées
Vision globale
RI Na Mg Al Si K Ca Ba Fe
Fe
Ba
Ca
K
Si
Al
Mg
Na
RI
34 / 41 F. Rossi Analyses multivariées
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquence
significativitéplus de 2 variables
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
Female Male
050
0010
000
2000
0
35 / 41 F. Rossi Analyses multivariées
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativité
plus de 2 variables
Sta
ndar
dize
dR
esid
uals
:<
−4
−4:
−2
−2:
00:
22:
4>
4
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
Female Male
050
0010
000
2000
0
35 / 41 F. Rossi Analyses multivariées
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
<=50K >50K <=50K >50K
Female Male
050
0010
000
2000
0
<=50K >50K
050
0015
000
35 / 41 F. Rossi Analyses multivariées
Mosaic plotÉquivalent du scatter plot pour les variables qualitatives
050
0015
000
2500
0
Amer−Indian−Eskimo
Asian−Pac−IslanderBlack
OtherWhite
découpage récursifsurfaceproportionnelle à lafréquencesignificativitéplus de 2 variables
Sta
ndar
dize
dR
esid
uals
:<
−4
−4:
−2
−2:
00:
22:
4>
4
adults
gender
ethn
icity
Female MaleAmer−Indian−EskimoAsian−Pac−Islander
Black
Other
White
<=50K >50K <=50K >50K
Female Male
050
0010
000
2000
0
<=50K >50K
050
0015
000
35 / 41 F. Rossi Analyses multivariées
Coordonnées parallèlesMéthode proposée en 1985 par A. Inselberg
un axe vertical par variableun objet devient une ligne brisée(x1, . . . , xp) est représenté par la ligne brisée passant par(1, x1), (2, x2), . . ., (p, xp)
1 2 3 4 5 6
1x
x 2
x 3
x 6
x 5
x 4
36 / 41 F. Rossi Analyses multivariées
Données Iris
Sepal.Length
2.0 2.5 3.0 3.5 4.0
●●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●● ●
●●
●●
●●
●
● ●
●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●
● ●
●
●●●
●●
●
●
●
●
●● ●
●
●
●
● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
●●
●
●
●
●
●
●
●
● ●
●
●●
●
●●●
●
●●
●
●●●
●
● ●●
●●
●
●
●●
● ●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●●●
●●
●●
●●
●
●●
●
●
●
●●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●
● ●
●
●●●
●●
●
●
●
●
●● ●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●●
● ●
● ●
●
●
●
●
●
●
●
●●
●
●●
●
●●●
●
●●
●
●●
●
●
●●●
●●
●
●
0.5 1.0 1.5 2.0 2.5
4.5
5.5
6.5
7.5
●●●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●● ●●●
●●
●●
●
●●
●
●
●
● ●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●●
●
●
●●
●●
●●● ●
●
●●●
●●
●
●
●
●
●●●
●
●
●
●● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ●
●●
● ●
●
●
●
●
●
●
●
●●
●
●●
●
●●●
●
●●
●
●●
●
●
● ●●
●●
●
●
2.0
3.0
4.0
●
●
●●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●● ●
●
●●
●
●
●
●
●
Sepal.Width●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
● ●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●●
●
●●●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●● ●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●●
●
●
●
●●
● ●●
●
●●
●
●
●
●
●
●●●● ●
●● ●● ● ●●
●● ●
●●●
●●
●●
●
●●
●● ●●●● ●● ●●
● ●●●●
●●●●
●
●●
● ●●
●●
●
●
●●●
●
●
●●
●●
●
●
●●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
●●● ●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
●● ●● ●
●●●● ● ●●
●● ●
●●●
●●
●●
●
●●
● ● ●●●● ● ● ●●● ● ●●
●●● ●●
●
●●
● ●●
●●
●
●
●●●
●
●
●●
●●
●
●
●●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
● ●●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
● ●●
●
●●
●
●
●
●
●
●●
● ●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
Petal.Length
12
34
56
7
●●●●●
●●●●● ●●●
● ●●●●
●●
●●
●
●●● ●●●●● ●● ●●●●
● ●●
●●●●
●
●●●●●
●●●
●
●●●
●
●
●●
●●
●
●
● ●●
●
●
●
●
●●
● ●●
●
●
●●●
●
●
● ●●
●●●
●●
●
●
●● ●●
●
●
●
●
●●
●
●
●
●
●●
●●
●
● ●●
●
●●
●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●
●●
●
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
0.5
1.5
2.5
●●●● ●
●●
●●●
●●●●
●
●●● ●●
●
●
●
●
● ●
●
●●●●
●
●●●● ●
●● ●
●●●
●
●●
●● ●●
●● ●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
● ●
●
●
●●●
●
●●
●●
●●●●
●
●
●
●●● ●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
● ●
●
●
●●●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
●● ●● ●
●●●●
●●●
●●●
●●● ●●
●
●
●
●
●●
●
●●●●
●
●●● ● ●
●● ●
●●●
●
●●
●● ●●
●●●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●
●
●●●
●
●●
●●
● ●●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
●●
●
●
●● ●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
1 2 3 4 5 6 7
●●● ●●
●●●●●●●
●●●
●●● ●●
●
●
●
●
●●
●
●● ●●
●
●●●●●●
● ●●●●
●
●●
●●●●
●● ●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●● ●
●
●
●●
●
●
●●●
●
●●●●
●
●
●
●●●●
●
●
●
●
●
●
●●
●●●
●
●●
●●
●●
●
●●
●
●
● ●
●
●
●●●
●
●
●●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●
Petal.Width
Anderson's/Fisher's Iris
4+1 variables, 150 objets
37 / 41 F. Rossi Analyses multivariées
Données Iris
Anderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width
38 / 41 F. Rossi Analyses multivariées
Données Iris
Anderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
38 / 41 F. Rossi Analyses multivariées
Attention à l’ordreAnderson's/Fisher's Iris
Sepal.Length Sepal.Width Petal.Length Petal.Width
Les variables Petal sont elles corrélées ?
39 / 41 F. Rossi Analyses multivariées
Attention à l’ordreAnderson's/Fisher's Iris
Petal.Length Sepal.Length Sepal.Width Petal.Width
Les variables Petal sont elles corrélées ?
39 / 41 F. Rossi Analyses multivariées
Interaction
problèmes :• surcharge de l’écran• surcharge cognitive
solution par interaction :• zoom• vues multiples• sélection et lien :
• sélection d’une zone (brushing)• affichage des résultats sur toutes les vues (linking)
en R• iplots• ggobi et rggobi
40 / 41 F. Rossi Analyses multivariées
iplots
41 / 41 F. Rossi Analyses multivariées
iplots
41 / 41 F. Rossi Analyses multivariées
iplots
41 / 41 F. Rossi Analyses multivariées
iplots
41 / 41 F. Rossi Analyses multivariées
Top Related