2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de...

56
UNIVERSIT ´ E D’ORL ´ EANS UFR de Sciences Master Miage 1` ere Ann´ ee 2012–2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE DONN ´ EES Notes de cours Didier CHAUVEAU

Transcript of 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de...

Page 1: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

UNIVERSITE D’ORLEANS

UFR de Sciences

Master Miage 1ere Annee

2012–2013

STATISTIQUES DESCRIPTIVES ETANALYSE DE DONNEES

Notes de cours

Didier CHAUVEAU

Page 2: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30
Page 3: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Table des matieres

1 Statistiques Descriptives 2

1.1 Caracteres (facteurs) qualitatifs . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.1 Observation d’un caractere qualitatif . . . . . . . . . . . . . . . . . . 3

1.1.2 Observation de deux caracteres qualitatif . . . . . . . . . . . . . . . 4

1.2 Caracteres quantitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2.1 Observation d’un caractere quantitatif . . . . . . . . . . . . . . . . . 10

1.2.2 Observation de deux caracteres quantitatifs . . . . . . . . . . . . . . 14

1.3 Liaisons entre un caractere quantitatif et un facteur . . . . . . . . . . . . . 17

2 Analyse en Composantes Principales 19

2.1 Observation de p caracteres quantitatifs . . . . . . . . . . . . . . . . . . . . 20

2.2 Meilleure projection d’un nuage de points . . . . . . . . . . . . . . . . . . . 22

2.2.1 Distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2 Inerties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.3 Calcul des axes principaux de l’ACP . . . . . . . . . . . . . . . . . . 24

2.2.4 Projection des individus . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Nuage des caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.4 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Analyse Factorielle des Correspondances 32

3.1 Principe de l’AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.1 ACP des Profils-ligne . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.2 ACP des Profils-colonne . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1.3 Choix des axes a conserver . . . . . . . . . . . . . . . . . . . . . . . 34

i

Page 4: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

TABLE DES MATIERES ii

3.2 Relations quasi-barycentriques . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Quelques regles et aides a l’interpretation . . . . . . . . . . . . . . . . . . . 36

3.3.1 Contributions a l’inertie des axes . . . . . . . . . . . . . . . . . . . . 36

3.3.2 Qualite de representation ou cosinus carres . . . . . . . . . . . . . . 36

4 Analyse des Correspondances Multiples 38

4.1 Structure des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.2 Principe de l’ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2.1 Distances et ponderations . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2.2 Relations quasi-barycentriques . . . . . . . . . . . . . . . . . . . . . 40

4.2.3 Inerties du nuage des modalites . . . . . . . . . . . . . . . . . . . . . 41

4.2.4 Quelques regles d’interpretation . . . . . . . . . . . . . . . . . . . . . 41

5 Annexes pour l’usage de SAS 43

5.1 ACP – PROC PRINCOMP . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.2 AFC et ACM – PROC CORRESP . . . . . . . . . . . . . . . . . . . . . . . 44

5.2.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.3 Methodes de classifications . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3.1 Classification Non Hierarchique, PROC FASTCLUS . . . . . . . . . 47

5.3.2 Classification Hierarchique, PROC CLUSTER . . . . . . . . . . . . 48

5.3.3 Dendrogramme, PROC TREE . . . . . . . . . . . . . . . . . . . . . 49

Page 5: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Introduction

En preambule, il est important de souligner la difference d’approche entre ce qu’il estconvenu d’appeler les methodes statistiques, et l’analyse de donnees objet de ce cours.Les deux corpus de methodes s’attachent a degager d’un volume de donnees disponible,des resumes synthetiques et eventuellement des “decision”. Les donnees peuvent etredes observations brutes (enregistrements de qualite de pieces produites, de phenomenesmeteorologiques, de resultats de sondages type INSEE, de cours de bourse. . .) ou bien desdonnees issues de protocoles experimentaux (experiences biologiques, agronomiques. . .).

Les techniques statistiques, en tant que science, consistent a prendre en compte lefait que les donnees sont entachees d’aleatoire (en particulier en recourant au tiraged’echantillons), et qu’il ne s’agit que d’une connaissance imparfaite d’une realite sous-jacente. On modelise donc leur recueil par l’usage des methodes mathematiques du calculdes probabilites. Cette approche necessite donc de faire des hypotheses sur la naturealeatoire des donnees, ce qui est contraignant, mais offre en retour des conclusions oudes regles de decision “garanties” en terme de probabilites, concernant la population d’ouprovient l’echantillon.

La terminologie “Analyse des donnees” emerge dans la deuxieme moite du vingtiemesiecle, lorsque le progres des moyens de calcul permet de faire subir des traitements sim-plificateurs a des masses de donnees de plus en plus grandes, et ce sans (ou eventuellementprealablement a) la mise en place de modeles probabilistes. Ces techniques ne doivent pasetre vues comme s’opposant aux methodes dites statistiques, mais comme complementairesde celles-ci, les deux points de vue s’etant largement interpenetres dans leur progressioncommune.

Ces notes de cours precisent essentiellement les aspects mathematiques et techniquesdes principales methodes d’analyse de donnees. On se reportera aux exercices (TD, TP)qui necessitent l’usage d’un logiciel de statistique tel que SAS ou R [7] pour les applicationset la pratique (interpretation et syntheses) .

1

Page 6: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Chapitre 1

Statistiques Descriptives

L’objet des statistiques descriptives est de donner un resume (numerique ou graphique)d’une population sur laquelle on observe des caracteres ou variables statistiques. On noteΩ = 1, ..., n cette population de n individus et on pose p “questions” a ces n individus (ils’agit d’une terminologie generale, ces questions peuvent etre des observations, des mesuresphysiques ou de veritables questions dans un sondage). On note X1, ..., Xp ces questions,et (X1

` , ..., Xp` ) la “reponse” de l’individu ` a ces p questions. La presentation usuelle des

donnees est la table individus-caracteres, qui consiste a ranger les donnees dans unematrice X de dimension (n, p), dans laquelle la i-ieme ligne notee Xi est la reponse de` aux p questions, et la j-ieme colonne contient la reponse des n individus a la j-iemequestion : c’est le j-ieme caractere, ou variable statistique Xj .

On distingue

– les reponses de nature qualitatives, dont les valeurs sont de type categorielles, engeneral non ordonnees

– les reponses de nature quantitatives, ordonnees, typique des mesures physiques.

Dans ce chapitre, on se limite aux techniques elementaires de resumes et de representations.Ces methodes sont limitees aux etudes des liens simultanes entre quelques variables (disonsp ≤ 3, bien que certaines techniques de representation, notamment dans R, peuvent allerplus loin). L’etude globale de liens entre p variables pour p “grand” necessite les techniquesqui seront presentees dans les chapitres suivants.

Nous illustrerons les differentes methodes sur le tout petit jeu de donnees exemplede la table 1.1, qui recense p = 5 caracteristiques sur n = 17 individus. Les sortiesproviennent du logiciel de statistique R qui est gratuit et multi-plateforme (voir [7] etwww.r-project.org).

2

Page 7: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 3

Tab. 1.1 – Jeu de donnees exemple, a n = 17 individus et p = 4 caracteres.

NOM SEXE AGE TAILLE POIDS CSP

Aubray M 41 188 76 CARon M 42 173 75 CACarl M 32 178 70 EM

Antonio M 39 183 75 CADeborah F 30 168 56 MA

Jacqueline F 33 168 52 CAHelen F 26 163 54 EMDavid M 30 180 71 MAJames M 53 183 79 CA

Michael M 32 175 64 MARuth F 47 175 63 EMJoel M 34 183 73 EM

Donna F 23 157 44 EMRoger M 36 190 72 CA

Elisabeth F 31 170 61 CATim M 29 180 79 MA

Susan F 28 165 59 EM

1.1 Caracteres (facteurs) qualitatifs

Dans le cas ou on observe un caractere qualitatif X, on choisi de noter generiquementx1, ..., xk l’ensemble des modalites possibles que peut prendre X. En pratique ces mo-dalites peuvent etre codees par des lettres ou des nombres, ce qui n’a pas d’importancetant que l’on n’utilise pas la relation d’ordre sur les nombres lorsque elle n’a pas de sens.Des exemple de telles variables sont le sexe , qui peut etre code par exemple X ∈ M,Fcomme dans le jeu de donnees Tab. 1.1, ou bien X ∈ 0, 1 (sans relation d’ordre), laCSP (Categorie Socio-Professionnelle, qui dans l’exemple Tab. 1.1 prend pour simplifierles valeurs CAdre, EMploye, MAnuel), le groupe sanguin,. . .

On utilise souvent le terme de facteur pour designer une variable qualitative. Cetteterminologie vient du fait que l’on s’interesse souvent a l’effet que produit un ou plusieursfacteur sur une ou plusieurs variables numeriques. Par exemple dans l’analyse “jouet” dela table 1.1, on peut s’interesser a l’effet du facteur sexe sur la taille des individus. Nousverrons dans la suite des methodes descriptives et graphiques pour mettre en evidence detels effets.

1.1.1 Observation d’un caractere qualitatif

C’est la situation la plus simple ; on observe sur Ω un seul caractere qualitatif X, c’est-a-dire que a chaque “individu” ` on fait correspondre sa “reponse” X` ∈ E = x1, ..., xk,pour ` = 1, . . . , n. Pour un veritable caractere qualitatif, les modalites ne sont pas or-donnees, donc pas comparables (en particulier la valeur moyenne de X n’a pas de sens).

Page 8: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 4

Resume numerique

On resume la distribution des valeurs prises par X par la table des frequences, quiconsiste a compter les occurrences de chaque modalite. On note

ni =n∑`=1

IX`=xi, et fi =nin, i = 1, . . . , k.

Remarquons que∑k

i=1 fi = 1, et donc (f1, . . . , fk) est une probabilite sur x1, ..., xk, quis’interprete comme la loi de probabilite empirique de X : fi = P(X = xi), i = 1, . . . , k.

Exemple 1 Pour les donnees 1.1, on compte n1 = 7 occurrences de “F” et n2 = 10occurrences de “M” ; la table de frequence (probabilites empiriques) de la variable sexe est

F M0.412 0.588

donc 41.2% de cette population sont des femmes. Cette table peut etre calculee sous R parla commande table(sexe).

Representation : l’histogramme

On represente la distribution des valeurs par l’histogramme (ou diagramme en batons),dans lequel les modalites de E sont en abscisse et les frequences absolues ni ou les proba-bilites empiriques fi sont en ordonnee (figure 1.1).

F M

02

46

810

Fig. 1.1 – Histogramme des ni pour la variable sexe, obtenu sous R par la commandeplot(sexe).

1.1.2 Observation de deux caracteres qualitatif

A chaque “individu” `, on fait a present correspondre sa “reponse” (X`, Y`), ou X` ∈E = x1, ..., xK et Y` ∈ F = y1, . . . , yL, pour ` = 1, . . . , n. Les comptages absolus

Page 9: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 5

et relatifs dans le cas de 2 caracteres sont les comptages du nombre ou de la frequenced’occurrences de tout couple de modalites (xi, yj),

nij =n∑`=1

IX`=xi,Y`=yj, fij =nijn, 1 ≤ i ≤ K, 1 ≤ j ≤ L.

Le vecteur (fij , 1 ≤ i ≤ K, 1 ≤ j ≤ L) verifie∑K

i=1

∑Lj=1 fij = 1, et s’interprete comme

la loi empirique du couple (X,Y ). A cette loi empirique on associe la loi marginale (em-pirique) du caractere X, donnee par les K frequences (f1•, . . . , fK•), et la loi marginaledu caractere Y , donnee par les L frequences (f•1, . . . , f•L), ou le • remplace l’indice pourlequel on somme :

fi• =L∑j=1

fij , f•j =K∑i=1

fij , avecK∑i=1

fi• =L∑j=1

f•j = 1.

On represente les frequences empiriques du couple (X,Y ) sous forme d’une table de contin-gence, table (K ×L) dans laquelle a l’intersection de la ligne i et de la colonne j figure fij(ou nij).

Exemple 2 Dans le cas de nos donnees, la table de contingence croisant X =SEXE avecY =CSP est :

cspsexe CA EM MA

F 0.118 0.235 0.059M 0.294 0.118 0.176

par exemple, 29.4% de cette population sont des cadres masculins. Les sommes en ligneou en colonne donnent les lois marginales X ou Y . La loi marginale de X est celle donneeau § 1.1.1.

Etude des profils

On peut aussi etudier les lois conditionnelles empiriques, qu’en analyse de donneeson appelle les profils-ligne et profils-colonne . Le i-eme profil-ligne est la repartition de YlorsqueX vaut xi, qui s’interprete comme la loi de probabilite (Y |X = xi), empirique. Dansnotre exemple, il s’agit de la repartition en CSP des femmes (x1 = F) ou des hommes (x2 =M). La probabilite conditionnelle empirique P(Y = yj |X = xi) se determine en calculant lesfrequences de reponses Y = yj parmi les individus ayant repondu X = xi, autrementdit il s’agit de l’emploi de la formule de Bayes :

P(Y = yj |X = xi) =P(Y = yj , X = xi)

P (X = xi)=fijfi•, j = 1, . . . , L. (1.1)

Page 10: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 6

On obtient ainsi K profils-lignes (fi1/fi•, . . . , fiL/fi•), i = 1, . . . ,K, que l’on a coutumede representer par l’histogramme des profils, qui est un histogramme de la variable deconditionnement (X) avec representation dans chaque barre associee a xi du i-ieme profil-ligne. Les choix de representations dependent des logiciels. Par exemple dans R la fonctionspineplot(X,Y) cree des barres de meme hauteur, mais de largeurs proportionnelles auxfi•, de sorte qu’il est facile de comparer visuellement les repartitions des profils-ligne danschaque modalite de X.

sexe

csp

F M

CA

EM

MA

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 1.2 – Histogramme des profils de csp par sexe.

L’interet de ces representations est de pouvoir evaluer visuellement les liens entreles caracteres X et Y (dans notre exemple, il est naturel de se demander si le sexe aune influence sur la CSP ; c’est une question que se posent classiquement les institutsde sondage a plus grande echelle). En effet, dans le cas d’independance entre ces deuxvariables, les repartitions de Y ne sont pas influencees par les modalites de conditionnementenX, et donc les profils calcules sur les donnees doivent etre approximativement semblables(on aurait a peu pres la meme repartition de cadres, employes et manuels que l’on soit unhomme ou une femme, ce qui n’est pas le cas au vu de la figure 1.1). Les liens entre deuxvariables qualitatives peuvent etre etudies plus precisement grace a l’Analyse Factorielledes Correspondances, une methode d’analyse de donnees fondamentale, qui sera vue auchapitre 3. Cette intuition est egalement precisee dans un cadre statistique par le testd’independance du χ2.

Test d’independance du χ2

Ce test fait appel aux techniques de statistique inferentielle, et a ce titre ne devraitpas figurer dans ce texte consacre aux statistiques descriptives. Mais il est tellement cou-ramment utilise dans le cadre de l’observation de deux variables qualitatives qu’il est bonde le connaıtre. De plus il ne necessite pas d’hypotheses de modeles contraignantes sur lesdonnees (il n’exige en particulier pas de modele parametrique sur les lois sous-jacentes).

On observe les n couples de “reponses” ((X1, Y1), . . . , (Xn, Yn)) precedents, et on sou-

Page 11: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 7

haite tester l’hypothese (dite hypothese nulle)

H0 : “X et Y sont independantes” contre H1 : “c’est faux”.

On se place ici dans un cadre de modele statistique, c’est-a-dire que l’on considere (ce quiest non contraignant dans ce cadre) que ces observations sont des realisations aleatoireset identiquement distribuees (iid) du couple de variables aleatoires que l’on notera aussi(X,Y ). La loi du couple (X,Y ) est un K × L-uple que l’on note

p = (pij , i = 1, . . . ,K, j = 1, . . . , L), pij = P(X = xi, Y = yj),

et les lois marginales de X et Y sont les suites (pi•)1≤i≤K et (p•j)1≤j≤L donnees par :

pi• = P(X = xi) =L∑j=1

pij , p•j = P(Y = yj) =K∑i=1

pij .

Sous l’hypothese nulle, la loi du couple est la loi p0 produit des marginales :

p0ij = pi•p•j , ∀i = 1, . . . ,K, j = 1, . . . , L.

Intuitivement, on souhaite proceder comme pour un test parametrique usuel (e.g., letest de Student), c’est-a-dire estimer la loi du couple par la loi empirique (p) :

pij =nijn

= fij , i = 1, . . . ,K, j = 1, . . . , L,

et calculer une distance entre p et la loi sous H0. La “distance” adaptee entre deux proba-bilites discretes sur le meme espace est la distance du χ2 (qui n’est pas mathematiquementune distance car non symetrique, on parle de dissimilarite). Si cette distance χ2(p0, p) est“trop grande”, alors on rejette H0. La difficulte vient de ce que la loi p0 sous H0 n’est pasconnue : a la difference par exemple du test de Student, elle n’est pas totalement specifieepar l’hypothese nulle. Il faut donc l’estimer elle aussi, ce que l’on fera en estimant lesmarginales :

p0ij =

ni•n

n•jn

= fi•f•j .

Sous des conditions qui sont verifiees dans le cas present, on montre alors que, sous H0,la loi de la statistique

nχ2(p0, p

)= n

K∑i=1

L∑j=1

(p0ij − fij

)2

p0ij

=K∑i=1

L∑j=1

(np0

ij − nij)2

np0ij

tend vers une loi du chi-deux dont les degres de libertes sont le nombre de parametresestimes pour la loi empirique (KM − 1) diminues du nombre de parametres estimes sousH0. Ici, on estime K − 1 parametres pi• et L − 1 parametres p•j puisque chaque suitesomme a 1, soit KL− 1− (K − 1)− (L− 1) = (K − 1)(L− 1). On admet donc le resultatasymptotique suivant :

Page 12: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 8

Theoreme 1 Si l’hypothese nulle d’independance est satisfaite, alors

nχ2(p0, p

)L→ χ2((K − 1)(L− 1)) lorsque n→∞.

On dit que nχ2(p0, p

)converge en loi vers la loi limite ci-dessus.

On rappelle que

Definition 1 Si (Z1, . . . , Zd) sont des variables aleatoires i.i.d. de loi normale N (0, 1),alors la loi de

∑di=1 Z

2i est appelee loi du chi-deux a d degres de liberte, notee

T =d∑i=1

Z2i ∼ χ2(d).

Son esperance est E(T ) = d et sa variance var(T ) = 2d.

Il n’est pas utile pour ce cours de connaıtre l’expression de sa densite, dans la mesure ounotre besoin sera l’obtention de quantiles ou de probabilites d’intervalles sous cette loi,et que ceux-ci ne sont pas explicites (et donc tabules et accessibles dans les logiciels destatistique).

Intuitivement, ceci signifie que si les variables sont independantes, les fluctuationsaleatoires dans l’estimation de la loi du couple et des marginales font que la distancenormalisee entre ces lois, nχ2

(p0, p

), se comporte comme une loi χ2((K−1)(L−1)) dont

des exemples de densite sont donnes Fig. 1.3. Il faut garder ces graphiques presents al’esprit lorsque on utilise cette loi pour la construction d’intervalles de confiance ou detests, ils indiquent dans quels intervals la statistique de test prend raisonablement sesvaleurs lorsque H0 est vraie. La construction de la region de rejet se fait avec un quantilede cette loi limite :

Proposition 1 Le test de H0 : “X et Y sont independantes” contre “c’est faux” de niveauvoisin de 0 < α < 1 conduit au rejet de H0 si

nχ2(p0, p

)> χ2

(K−1)(L−1),1−α

.

L’application de la proposition 1 produit la decision “rejet” ou “non rejet” de H0 auniveau α. Mais cette decision seule est imprecise : on ne sait pas si on a rejete “largement”ou “de justesse” H0. Les logiciels de statistique preferent donner le resultat d’un test sousla forme de la p-valeur ou probabilite critique du test, plus petit niveau qui permettede rejeter H0 avec l’observation obtenue pour la statistique de test a partir des donneesnχ2(p0, p) = x. L’expression mathematique de la p-valeur depend du test (de la loi dela statistique de test sous H0 et de la forme de sa region de rejet). Pour le test du χ2

d’independance la probabilite critique est

p = P(Z > x), ou Z ∼ χ2((K − 1)(L− 1)).

Page 13: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 9

0 10 20 30 40

0.00

0.05

0.10

0.15

0.20

0.25

z

f1

d=3

d=10

d=20

Fig. 1.3 – Allure de la densite de la loi χ2(d) pour d = 3 (noir), d = 10 (tirets) et d = 20(tirets longs).

Exemple 3 On applique le test du χ2 a la table de l’exemple 2, qui croise sexe (K = 2)et CSP (L = 3). On obtient la valeur numerique

nχ2(p0, p

)= 2.5009

qui suit approximativement une loi χ2(2). Le seuil de rejet au niveau α = 5% est iciχ2

2,0.95 = 5.991 (on le lit dans une table, ou on l’obtient par exemple sous R par la commandeqchisq(0.95,2). Donc on ne peut pas rejeter l’hypothese nulle. La p-valeur du test estp = P(Z > 2.5009), ou Z ∼ χ2(2) ; a l’aide d’une table de fonction de repartition decette loi (ou d’un logiciel) on obtient p = 0.2864, ce qui signifie que si on rejette H0, laprobabilite de se tromper (rejet de H0 a tort) est de 28.64%, ce qui est trop important, onconclu donc que le sexe n’a pas d’influence sur la CSP.

On remarque que cette conclusion n’est pas en accord avec celle que l’on pensait rai-sonnable au vu de l’histogramme des profils (fig. 1.2). Il se trouve que l’effectif observe ici(n = 17) n’est pas suffisant pour que l’approximation donnee par le theoreme 1 s’applique :en fait le test sur ces donnees de faible effectif n’est pas valide, meme si les calculs sontrealisables.

Page 14: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 10

1.2 Caracteres quantitatifs

On parle de caractere quantitatif lorsque la “reponse” de la variable observee est a va-leur dans un ensemble muni d’une relation d’ordre. En general il s’agit d’un sous-ensembled’entiers, X ∈ N (age en annees, nombre d’enfants,. . .), ou plus generalement de reelsX ∈ E ⊆ R (mesures physiques, taille, poids,. . .).

1.2.1 Observation d’un caractere quantitatif

On observe sur Ω la variable X ∈ E ⊆ R, et on note ici Xi la reponse de l’individu i,pour i ∈ 1, . . . , n. Par exemple, pour la table 1.1, X peut etre l’age, la taille ou le poids.

Representation : l’histogramme

Comme pour un caractere qualitatif, on peut representer la distribution des valeurs deX a l’aide d’un histogramme. Cependant il faut ici distinguer deux cas :

1. E = x1, . . . , xk avec Card(E) = k petit, ce qui peut etre le cas si la variable nepeut techniquement prendre sur la population observee que peu de valeurs distinctes(exemple, le nombre d’enfants dans une famille, k ≤ 10 le plus souvent), ou si Xrepresente une mesure avec un fort arrondi (par exemple les ages en annees entieresdans une classe de CP, k ≤ 3). Dans ce cas, on peut representer X a l’aide d’unhistogramme par valeurs, dans lequel a chaque valeur distincte xj de E on faitcorrespondre une barre de hauteur fj =

∑ni=1 IXi=xj/n, comme dans le cas d’un

facteur qualitatif (mais ici les xj sont ordonnees).2. X est une mesure (physique) precise (taille, poids) ; on aura alors le plus souvent

pratiquement autant de valeurs distinctes observees que le nombre n d’observa-tions. Dans ce cas un histogramme par valeur ne donne pas d’information (voirfig. 1.4, gauche), et on procede par discretisation, c’est-a-dire decoupage de l’inter-valle [min(Xi),max(Xi)] en k classes :

c0 = min1≤i≤n

(Xi) < c1 < · · · < ck = max1≤i≤n

(Xi).

On affecte alors a chaque barre la hauteur

ni =n∑i=1

IXi∈[cj−1;cj [

(cas de l’histogramme des frequences, voir fig. 1.4) ou fi = ni/n (histogramme desprobabilites empiriques).

Le choix du nombre de classes k d’un histogramme est important :– Si k est trop grand par rapport a n (penser par exemple au cas k = n pour fixer

les idees) alors les classes ne contiennent que rarement plus d’une valeur, autrementdit ni ∈ 0, 1 le plus souvent, et l’histogramme n’apporte pas d’information (il estcomparable a celui de la fig. 1.4, gauche).

Page 15: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 11

23 26 28 29 30 31 32 33 34 36 39 41 42 47 53

0.0

0.5

1.0

1.5

2.0

age

Fre

quen

cy

20 25 30 35 40 45 50 55

01

23

45

Fig. 1.4 – Histogramme de age par valeurs (gauche) et par discretisation en k = 7 classes(droite).

– Si k est trop petit, l’histogramme est trop “grossier” et n’apporte pas non plusd’information (penser par exemple au cas extreme k = 2, ou, si la coupure se fait“au milieu” (notion definie ci-dessous) de la distribution, on observera a peu presf1 = f2 = 1/2).

Il existe des algorithmes de determination automatique du nombre k = k(n,X) “optimal”de classes en fonction de la taille (n) des donnees et parfois de la dispersion des donnee(notion definie plus loin). Ces algorithmes sont en general calibres pour des donnees gaus-siennes (dont les observations sont proches de celles issues d’une loi normale). Les logicielsSAS ou R utilisent de tels algorithmes par defaut.

Mesures de localisation

La localisation est la “tendance centrale” d’une distribution. La moyenne empiriquedes valeurs de X est le parametre de localisation naturel :

X =1n

n∑i=1

Xi.

On utilise parfois une notation un peu plus generales, en particulier lorsque on a besoinde ponderer les individus de maniere non uniforme. On affecte alors a i le poids pi ∈]0, 1[,de sorte que la suite des poids p = (p1, . . . , pn) verifie

∑ni=1 pi = 1. La suite p peut ainsi

etre vue comme une probabilite particuliere sur l’ensemble Ω = 1, . . . , n.

Definition 2 La moyenne empirique de la variable X affectee des poids p = (p1, . . . , pn)est

X =n∑i=1

piXi.

La moyenne empirique peut etre vue comme une esperance mathematique relativementa la probabilite p sur Ω, et verifie donc les meme proprietes qu’une esperance. En particulier

Page 16: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 12

elle est lineaire : si pour un scalaire a ∈ R on note Y = aX la variable dont les observationsont (aX1, . . . , aXn), on a Y = aX, et si on note Y = X + Z pour une autre variableobservee Z (exprimee dans les memes unites que X), la variable dont les cordonnees sont(X1+Z1, . . . , Xn+Zn), on a Y = X+Z. Ces notation vectorielles seront utilisees egalementau chapitre 2.

On peut toujours centrer une variable X en retirant sa moyenne empirique a toutes sescoordonnees : si on note In le vecteur (colonne) compose de 1, de taille n, alors la variablecentree associee a X est, en notation vectorielle,

Y = X − XIn =

X1...Xn

− X 1

...1

qui verifie Y = 0.

Une autre tendance centrale, moins dependante des valeurs extremes que X, est l’ana-logue empirique de la mediane d’une loi de probabilite, c’est-a-dire le milieu de la distri-bution en probabilite. Pour le determiner on trie les donnees par ordre croissant, et onnote

X(1) ≤ X(2) ≤ · · · ≤ X(n)

les donnees triees (le vecteur des X(i), i = 1, . . . , n s’appelle les statistiques d’ordre deX ; cette notation vient de ce que le resultat s’obtient via une permutation de l’ensembleindices 1, . . . , n de depart).

La mediane empirique de X est alors M ∈ R tel que– si n impair, n = 2d+ 1, M = X(d)

– si n pair, n = 2d on peut prendre M = X(d), ou bien M =X(d) +X(d+1)

2(cela

depend des logiciels).Par exemple sur les donnees de la table 1.1, la mediane de Taille, calculee avec R par lacommande median(taille), est M = 175.

Quantiles empiriques

On generalise la notion de mediane a celle du quantile empirique d’ordre α ∈]0, 1[ :c’est le reel Qα tel que l’on ait une proportion α des donnees de valeurs inferieure a Qα.La mediane M est le quantile d’ordre 1/2. On le calcule egalement a l’aide des statistiquesd’ordre :

Definition 3 Le quantile empirique d’ordre α ∈]0, 1[ de X est

Qα = X([nα]),

ou pour x ∈ R, [x] est la partie entiere de x, c’est-a-dire l’entier le plus proche de x, etpour k ∈ N, X(k) est la k-ieme statistique d’ordre de X.

Page 17: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 13

Pour fixer les idees, si l’on dispose de n = 100 donnees, le quantile empirique d’ordreα = 0.10 est X(10). Les 3 quantiles Q0.25, Q0.5 = M et Q0.75 qui coupent la distribution en4 parties d’egale probabilite 1/4 s’appellent les quartiles. Les quantiles Q0.10, . . . , Q0.90 quila coupent en parts de probabilite 1/10 s’appellent les deciles. L’intervalle Q0.75 − Q0.25,qui contient 50% de la distribution, s’appelle ecart interquartiles.

Representation des quantiles empiriques : Boxplot Un boxplot, ou “boıte et mous-taches” est un diagramme de representation de la distribution d’une variable au moyende quelques quantiles caracteristiques, et eventuellement de certaines valeurs particulieres,dites “extremes”. Les limites de la “boıte” de ce diagramme representent les quartiles 25%et 75%, entre lesquelles la mediane figure (ligne horizontale) ; les lignes extremes (mous-taches) representent des valeurs extremes dont la definition depend des logiciels utilises.Dans le logiciel R par exemple, il s’agit des valeurs extremes ne se trouvant pas a plus de1.5IQR de la boite, ou IQR est l’ecart interquartiles.

L’interet des representations de type boxplots reside surtout dans la comparaison dedistributions empiriques entre plusieurs variables, ou bien entre les distributions d’unememe variable ventilee suivant les modalites d’un facteur qualitatif. La fig. 1.5 representepar exemple la distribution de la variable taille en considerant toutes les observations,puis en ventilant celles-ci par sexe. On voit alors clairement un effet du sexe des individussur leurs taille, qui se manifeste par une translation de toute la distribution.

160

165

170

175

180

185

190

F M

160

165

170

175

180

185

190

Fig. 1.5 – Boxplot de taille (gauche) et boxplots de taille par sexe (droite).

Mesures de dispersion

Une mesure de localisation ne decrit pas a elle seule toutes les caracteristiques d’unedistribution (empirique ou non). Deux variables peuvent avoir la meme moyenne empi-rique et cependant etre tres differentes ; par exemple l’une peut avoir des observations tresconcentrees autour de sa moyenne, l’autre tres “dispersee”. C’est cette notion de disper-

Page 18: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 14

sion, que l’on mesure usuellement par la moyenne des ecarts quadratiques a la moyenneempirique :

Definition 4 La variance empirique de la variable X affectee des poids p = (p1, . . . , pn)est

σ2(X) =n∑i=1

pi(Xi − X)2 (1.2)

On retrouve la variance empirique usuelle lorsque p est la ponderation uniforme, pi = 1/npour tout i = 1, . . . , n.

La variance empirique verifie les memes proprietes que la variance d’une variablealeatoire, car on peut la considerer comme telle, relativement a la probabilite p sur Ω.En particulier, pour a et b constantes,

σ2(aX + bIn) = a2σ2(X). (1.3)

La variance s’exprime dans le carre de l’unite dans laquelle s’exprime X, ce qui peut etregenant pour les interpretations, pour lesquelles on utilise plutot l’ecart-type note

σ(X) =√σ2(X).

Exemple 4 Pour les donnees 1.1, les variances et ecart-types des variables quantitativespeuvent etre calculees sous R par les commandes

> var(poids)[1] 108.5588

> sd(taille)[1] 9.148288

par exemple l’ecart-type de la taille est de 9.15 cms.

On peut toujours reduire une variable X, c’est-a-dire la transformer en une variablede variance 1, en divisant les observations par son ecart-type : vectoriellement on noteY = X/σ(X) qui verifie σ2(Y ) = 1 en appliquant (1.3) avec a = 1/σ(X).

La variable centree reduite associee a X est donc Z = (X − XIn)/σ(X), qui estde moyenne empirique nulle et de variance empirique 1. Ces techniques seront utiles auchapitre 2.

1.2.2 Observation de deux caracteres quantitatifs

On observe deux variables X et Y numeriques, et on note (Xi, Yi) la reponse de l’in-dividu i comme precedemment. On pourrait penser representer la loi du couple par un

Page 19: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 15

histogramme 3D, mais en general ces representations sont difficilement lisibles. On leurprefere les representations de type nuage de points ou scatterplot, diagramme en 2 dimen-sions sur lequel l’individu i a pour coordonnees (Xi, Yi) ou (Yi, Xi), suivant l’interpretationque l’on a des liens entre les variabes, et en particulier de la causalite de la relation. Eneffet, on a l’habitude de choisir comme variable en ordonnees celle que l’on pense pou-voir dependre de la variable en abscisse (et eventuellement d’autres variables). Il est deplus courant de representer sur ces graphiques les individus par des “labels” (noms, ca-racteristiques, modalites d’un facteur,. . .) plutot que par un symbole grahique. Ceci estutile si l’analyse peut porter sur les individus, ou groupes d’individus (cas ou n n’est pastrop grand). Les logiciels de statistique courants permettent de telles representations. Parexemple, la fig. 1.6 represente le nuage du poids contre la taille (parce que on pense que lepoids peut dependre de la taille et pas le contraire) avec deux types de labels, les noms desindividus (pour reperer des individus particuliers) et les modalites du facteur sexe (pouretudier l’effet de ce facteur et ses liens avec taille et poids).

160 165 170 175 180 185 190

4550

5560

6570

7580

taille

poid

s

AubrayRon

Carl

Antonio

Deborah

Jacqueline

Helen

David

James

MichaelRuth

Joel

Donna

Roger

Elisabeth

Tim

Susan

160 165 170 175 180 185 190

4550

5560

6570

7580

taille

poid

s

MM

M

M

F

F

F

M

M

MF

M

F

M

F

M

F

Fig. 1.6 – Nuage de points de taille contre poids avec representation des noms (gauche)et des modalites du facteur sexe avec coloration(droite).

Liaison lineaire entre deux variables quantitatives

On s’interesse souvent au lien entre X et Y , pour repondre a des questions comme “Ya-t-il tendance a etre grand si X l’est ?”. Le critere numerique qui mesure cette dependanceest l’analogue de la covariance de deux variables aleatoires :

Definition 5 La covariance empirique des variables X et Y pour la ponderation p =

Page 20: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 16

(p1, . . . , pn) est

Γ(X,Y ) =n∑i=1

pi(Xi − X)(Yi − Y ). (1.4)

Intuitivement, on voit par exemple que lorsque un Xi est “grand”, disons Xi > X, et quesimultanement Yi > Y , ou bien qu’ils sont tous deux “petits”, l’individu i apporte unecontribution positive a la covariance ; il en apporte une negative dans les cas contraires.La covariance s’exprime dans le produit des unites des deux variables, ce qui n’est paspratique, on lui prefere pour l’interpretation le critere suivant :

Definition 6 Le coefficient de correlation empirique des variables X et Y pour laponderation p = (p1, . . . , pn) est

ρ(X,Y ) =Γ(X,Y )σ(X)σ(Y )

. (1.5)

On montre que ρ(X,Y ) ∈ [−1, 1], et que ρ(X,Y ) = ±1 si et seulement si il existe a, b reelstel que X = aY + bIn.

Regression lineaire simple

Lorsque un tel lien est constate (par l’etude de la forme du nuage de points, et le calculde ρ(X,Y )), on peut proposer un modele reliant ces 2 variables, de forme

Y = β + αX,

ou Y est la variable a expliquer et X la variable explicative ou regresseur. On recherchealors la “meilleure” droite, c’est-a-dire celle passant au plus pres des points du nuage. Cecirevient a determiner les estimateurs (α, β) des parametres de pente et constante par lamethode des moindres carres, qui cherche a minimiser les ecarts

(β, α) = minα,β

n∑i=1

(Yi − αXi − β)2 .

Le calcul de (α, β) donne

α =Γ(X,Y )σ2(X)

, β = Y − αX,

Ce type de modele permet ensuite de faire de la prediction de Y par X : imaginons queune nouvelle observation x de X soit disponible, mais que la valeur y qui lui correspondesoit inacessible (mesure couteuse, etc). On peut predire cette valeur par y = β+ αx. Cettetechnique se generalise a plusieurs regresseurs, ou a des modeles non lineaires.

Par exemple ici la regression de Y =Poids sur X =Taille donne comme estimateursβ = −109.138, α = 0.999.

Page 21: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 17

160 165 170 175 180 185 190

4550

5560

6570

7580

taille

poids

AubrayRon

Carl

Antonio

Deborah

JacquelineHelen

David

James

MichaelRuth

Joel

Donna

Roger

Elisabeth

Tim

Susan

Fig. 1.7 – Nuage de points de poids contre taille avec droite de regression lineaire .

1.3 Liaisons entre un caractere quantitatif et un facteur

On peut egalement, par des techniques elementaires, etudier et resumer les effets d’unfacteur (c’est-a-dire une variable qualitative X ∈ x1, . . . , xk) sur une variable quan-titative (disons Y ∈ R). Les logiciels proposent de nombreuses methodes : statistiquesdescriptives par groupes identifies par les modalites du facteur, distributions boxplot pargroupes (comme dans la fig. 1.5, droite).

Techniquement, il s’agit simplement de calculer les statistiques precedentes (moyennes,variances, ecart-types,. . .) sur Y , separement pour chaque groupe identifies par les moda-lites du facteur X. Par exemple, si on note Yxj la moyenne empirique en Y des individusayant repondu xj pour x, on a

Yxj =∑n

i=1 YiIXi=xj∑ni=1 IXi=xj

j = 1, . . . , k. (1.6)

Exemple 5 Pour les donnees 1.1, les moyennes de Y =taille par le facteur X =sexepeuvent etre calculees sous R par

Page 22: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. STATISTIQUES DESCRIPTIVES 18

> tapply(taille,sexe,mean)F M

166.5714 181.3000

Donc YM = 181 > YF = 167. Ceci suggere d’utiliser un test statistique (par exemple letest de Student) afin de voir si les hommes sont plus grands que les femmes au vu de cesdonnees.

Page 23: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Chapitre 2

Analyse en ComposantesPrincipales

Les statistiques descriptives proposent des techniques de representation et de resumede donnees relatives a un ou deux caracteres quantitatifs (numerique avec relation d’ordre)ou qualitatifs (a modalites). Pour ce qui est des variables quantitatives, les representationsusuelles sont les nuages de points (ou scatterplot), cf. 1.2.2. Lorsque les donnees consistenten plus de 2 variables quantitatives, les nuages de points ne sont plus realisables.

L’Analyse en Composantes Principales (ACP) est probablement la plus connue desmethodes d’analyse de donnees multidimensionnelles. Il s’agit de resumer un tableauindividus-caracteres de n lignes (appelees aussi observations ou individus) et p colonnes(appelees aussi variables ou caracteres), avec p > 2. Cette methode est restreinte auxtableaux de variables quantitatives (numeriques). En general, n est de l’ordre de quelquesmilliers et p de quelques dizaines, mais on peut aujourd’hui trouver des tableaux de donneesbeaucoup plus grands, notamment dans le contexte de la fouille de donnees ou data mining.L’objectif est de realiser une synthese et une simplification de l’information disponible, etce en “perdant” le moins possible de l’information presente dans les donnees de depart.

Preliminaires

Les methodes d’analyse de donnees multidimensionnelles qui seront vues dans ce coursnecessitent de maıtriser quelques elements d’algebre lineaire. On suppose connues les no-tions d’espace vectoriel de dimension finie sur R, et les techniques de calcul matriciel. Onrappelle juste ici quelques notions indispensables.

Un espace vectoriel (ev) E de dimension finie p est isomorphe a Rp, et on convientusuellement de representer un vecteur x ∈ E par le vecteur colonne de ses p coordonnees.On note le transpose de x par

tx = (x1, . . . , xp).

19

Page 24: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 20

On rappelle que :

1. un produit scalaire sur un ev E est une application < · , · > de E × E dans Rbilineaire, symetrique, definie (∀x ∈ E,< x, x >= 0 ⇒ x = 0), et positive (∀x ∈E,< x, x >≥ 0).

2. Un espace Euclidien est un ev de dimension finie muni d’un produit scalaire.

3. La norme Euclidienne associee au produit scalaire < · , · >, notee || · ||, est definiepar

||x|| =√< x, x >.

4. la distance Euclidienne associee au produit scalaire < · , · >, est

d(x, y) = ||x− y|| =√< x− y, x− y >.

5. Soit E = (e1, . . . , ep) une base de E. E est orthogonale si < ei, ej >= 0 pour tout i 6=j ∈ 1, . . . , p. E est orthonormale si elle est orthogonale et si en plus < ei, ei >= 1,pour i = 1, . . . , p.

6. On note< · , · >M le produit scalaire associe a une matrice de distanceM symetrique(p× p), defini par

< x, y >M= txMy.

On note || · ||M et d(·, ·)M les norme et distance associees.

7. Le produit scalaire usuel est < · , · >Ip associe a la matrice identite Ip ; on le notesimplement :

< x, y >= txy =p∑i=1

xiyi.

8. Soit E = (e1, . . . , ep) une base orthonormale de E. Tout x ∈ E s’ecrit

x =p∑i=1

< x, ei > ei,

autrement dit les (< x, ei >, i = 1, . . . , p) sont les coordonnees de x dans la base E .

2.1 Observation de p caracteres quantitatifs

On considere une population de n “individus”, ou chaque individu a repondu a p“questions” de nature quantitative (resultat de sondage, experimentation. . .). La “reponse”de l’individu i aux p questions est notee

Xi = (X1i , . . . , X

pi ),

et est affectee du poids pi. Les poids representent “l’importance” accordee a l’individu idans l’analyse, et verifient

∑ni=1 pi = 1. La ponderation usuelle est pi = 1/n pour tout

i = 1, . . . , n.

Page 25: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 21

La table individus-caracteres est la matrice X (n×p), dans laquelle la i-ieme ligneest Xi (notons que Xi est note comme un vecteur-ligne, mais qu’il sera considere commevecteur-colonne dans les calculs algebriques). La j-ieme colonne de cette matrice est lej-ieme caractere ou variable statistique, note

Xj =

Xj1

...Xjn

,ou de maniere plus pratique avec la notation transposee :

tXj = (Xj1 , . . . , X

jn).

La moyenne empirique du j-ieme caractere est

Xj =n∑i=1

piXji

et on definit le tableau des donnees centrees, matrice (n× p)

Y = [Y 1 · · ·Y p], ou Y j = Xj − XjIn,

et ou In est le vecteur (colonne) compose de 1, de taille n :

tIn = (1, . . . , 1︸ ︷︷ ︸×n

).

Les variables associees a la table Y sont de moyennes empiriques nulles : Y j = 0 pourj = 1, . . . , p. On note egalement N la matrice (n× n) diagonale des poids (p1, . . . , pn) :

N =

p1 0 . . . 00 p2 . . . 0

0 . . .. . . 0

0 . . . 0 pn

Definition 7 On appelle matrice de variances-covariances empiriques associee auxp variable quantitative (X1, . . . , Xp), la matrice Γ de dimension (p× p), donnee par

Γjk =n∑i=1

pi(Xji − X

j)(Xki − Xk) = Γ(Xj , Xk), j, k = 1, . . . , p,

ou Γ(Xj , Xk) est la covariance empirique entre les caracteres Xj et Xk definie en (1.4).Les termes diagonaux de cette matrice sont les variances empiriques :

Γjj =n∑i=1

pi(Xji − X

j)2 = σ2(Xj), j = 1, . . . , p.

Page 26: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 22

La matrice Γ est symetrique (tΓ = Γ), et positive (∀v ∈ Rp, tvΓv ≥ 0). On verifie quematriciellement

Γ = tYNY.

Pour l’interpretation des liaisons lineaires entre les caracteres deux a deux, on utilise plutoten analyse de donnees la matrice de correlations :

Definition 8 On appelle matrice de correlations empiriques associee aux p variablequantitative (X1, . . . , Xp), la matrice (p× p) R, donnee par

Rjk = ρ(Xj , Xk) =Γ(Xj , Xk)σ(Xj)σ(Xk)

, 1 ≤ j, k ≤ p.

ou ρ(Xj , Xk) est la correlation empirique entre les caracteres Xj et Xk.

2.2 Meilleure projection d’un nuage de points

Les donnees de la table X peuvent etre vues comme :– un nuage des individus, nuage des n points de Rp (X1, . . . , Xn), ou le i-ieme point

a pour coordonnees Xi = (X1i , . . . , X

pi ), et est affecte du poids pi ;

– un nuage des caracteres, nuage des p points de Rn (X1, . . . , Xp).

2.2.1 Distances

Dans le nuage des individus, on s’interesse aux distances entre individus, pour desraisons d’interpretation (classification en groupes d’individus homogenes dans le nuage,recherche d’individus proches, ou au contraire “extremes”,. . .).

La metrique naturelle est la distance Euclidienne dans Rp, dont on rappelle la definition :

d2(Xi, Xu) =p∑j=1

(Xji −X

ju)2 = ||Xi −Xu||2.

C’est la metrique associee a la matrice de distance identite Ip.

ACP normee La metrique Euclidienne n’est pas forcement la plus appropriee. Notam-ment, dans le cas ou les variables sont exprimees dans des unites differentes, ou encored’unites semblables mais d’ordre de grandeur tres differents, ce qui se traduit par desecarts-types empirique σ(Xj), j = 1, . . . , p differents, l’usage de la distance Euclidiennerevient a ne prendre en compte que les coordonnees sur les variables de plus fort ecarts-types σ(Xj). Dans ce cas, on utilise une metrique qui reduit toutes les variables (c’est adire qui les transforme en variables d’ecarts-types 1). Ceci revient a utiliser la metriquede matrice de distance Mσ, matrice diagonale (p × p) d’elements diagonaux 1/σ2(Xj),

Page 27: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 23

j = 1, . . . , p, ou de maniere equivalente a utiliser la distance Euclidienne sur le nuagereduit dont les variables sont Zj = Xj/σ(Xj), j = 1, . . . , p. En effet,

d2(Xi, Xu)Mσ =p∑j=1

1σ2(Xj)

(Xji −X

ju)2 =

p∑j=1

(Zji − Zju)2.

Il faut preciser que reduire le nuage preserve les liens lineaires entre les variables, puisqueles covariances Γ(Zj , Zk) sont egales aux correlations ρ(Xj , Xk).

On appelle ACP normee la technique de projection du nuage dans laquelle on utilisela metrique Mσ. Pour simplifier la presentation, nous presentons ici l’ACP non normeeutilisant la metrique usuelle. L’ACP normee est similaire puisqu’il suffit de considerer lesdonnees reduites.

2.2.2 Inerties

Definition 9 Le barycentre du nuage des individus est le point (individu fictif)

X =n∑i=1

piXi =n∑i=1

pi

X1i

...Xpi

=

X1

...Xp

.Inertie autour d’un point

Soit a un point de Rp. L’inertie du nuage autour de a est

I(a) =p∑i=1

pi||Xi − a||2.

La formule de Huygens permet d’ecrire que cette inertie est la somme de l’inertie autourdu barycentre et du carre de la distance du barycentre a a :

I(a) = I(X) + ||X − a||2.

L’inertie est donc minimale autour de X, et I(X) seule quantite qui soit intrinseque aunuage, ce qui justifie de remplacer dorenavant le nuage par le nuage centre Y, defini au§ 2.1. On a alors

Definition 10 L’inertie (totale) du nuage des individus X est

I = I(X) =n∑i=1

pi||Yi||2

On verifie immediatement que

I =p∑j=1

σ2(Xj) =p∑j=1

Γjj = Trace(Γ),

ce qui etabli un lien entre l’inertie et des mesures statistiques liees aux caracteres.

Page 28: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 24

Inertie autour d’un sous-espace affine

Soit F un sous-espace vectoriel de Rp, et F a = u + a, u ∈ F le sous-espace affinepassant par a. On notera ici egalement F le sous-espace affine passant par le barycentre dunuage, qui est celui que l’on considere en pratique. On note xF la projection orthogonaledu vecteur x sur F , et on definit l’inertie dans F

I(F ) =n∑i=1

pi||(Yi)F ||2,

somme ponderee des carres des distances au centre des projetes des points-individus (c’est-a-dire les ecarts mesures dans F ; on appelle parfois pour cela cette inertie la variabilitedans F ). On peut ainsi decomposer l’inertie totale en

I = I(F ) + I(F⊥),

ou F⊥ est le sous-espace orthogonal a F (Ceci est une consequence du theoreme de py-thagore).

2.2.3 Calcul des axes principaux de l’ACP

L’objectif est de determiner le meilleur sous-espace Fq de projection en dimension q < pdu nuage, c’est-a-dire celui conservant au mieux l’inertie totale I, et dans lequel le nuageprojete est le moins “deforme” possible, c’est-a-dire dans lequel les distances des projetes al’origine sont les plus proches des distances dans Rp. Ce sont precisement ces distances quiinterviennent dans I(Fq), donc il s’agit de determiner le sev d’inertie projetee maximale :

Fq tel que I(Fq) ≥ I(E), ∀E sev de Rp, dim(E) = q.

On resoud d’abord le probleme pour q = 1, autrement dit on recherche l’axe principalde vecteur directeur u norme (||u|| = 1), meilleure droite de projection du nuage (passantpar l’origine O), droite que l’on note simplement Du plutot que F1.

6

-

O

AAAAAAAA

*

Yi

Hi

(Du)

u

Soit Yi le point du nuage associe ala i-eme ligne des donnees centrees(l’image de l’individu i). OHi =(Yi)Du est la projection orthogonalede Yi sur la droite Du.Le triangle OYiHi est rectangle enHi donc

(OHi)2 + (HiYi)2 = (OYi)2

Dans cette expression, OYi estconstante et (OHi)2 depend duchoix de u.

Page 29: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 25

Soit Q la forme quadratique associee a Γ, matrice de variances-covariances associee aX. On verifie directement que

I(Du) =n∑i=1

pi〈Yi, u〉2 = ut Γu = Q(u).

La matrice Γ est symetrique, semi-definie positive ; elle est diagonalisable, a toutes sesvaleurs propres reelles, et il existe une base orthonormale de vecteurs propres de Rp.Notons λ1 ≥ λ2 ≥ · · · ≥ λp les valeurs propres triees par ordre decroissant, et V 1, . . . , V p

les vecteurs propres associes.

En notant V = [V 1 · · ·V p] la matrice (p × p) des vecteurs propres, et Λ la matricediagonale des valeurs propres, on a Γ = VΛVt, ce qui permet d’ecrire

I(Du) = ut Γu =p∑j=1

λj〈u, V j〉2 ≤ λ1

p∑j=1

〈u, V j〉2 = λ1||u||2 = λ1.

Il suffit alors de choisir u = V 1 pour maximiser I(Du) = λ1. La meilleure droite deprojection du nuage est celle de vecteur directeur V 1, associe a la plus grande valeurpropre λ1 de la matrice Γ. Ensuite, on repete le procede, en cherchant le vecteur directeurv de la droite vectorielle Dv, orthogonal a V 1 et norme, maximisant I(Dv). De la mememaniere

I(Dv) =p∑j=2

λj〈v, V j〉2 ≤ λ2

et le maximum est atteint pour v = V 2, et ainsi de suite.

On peut ainsi resumer le resultat fondamental de l’ACP par la proposition suivante :

Proposition 2 La meilleure projection en dimension q < p du nuage est la projectionorthogonale sur le sous-espace affine Fq passant par le barycentre X et engendre par(V 1, . . . , V q), les q vecteurs propres de Γ associes aux q plus grandes valeurs propresλ1 ≥ λ2 ≥ · · · ≥ λq.

– Le vecteur V q est le q-ieme facteur principal– La droite DV q est le q-ieme axe principal– L’inertie de la projection dans DV q est I(DV q) = λq– l’inertie dans le meilleur s.e. de dimension q est I(Fq) =

∑qj=1 λj

– l’inertie totale est I =∑p

j=1 λj = Trace(Γ).– La fidelite de projection sur Fq est

∑qj=1 λj/I.

La fidelite de projection est donc le pourcentage de l’inertie totale conserve par la projec-tion. C’est un indicateur du nombre d’axes a conserver. En general, on projette d’abordsur le plan principal engendre par (V 1, V 2), puis on etudie eventuellement d’autres axessuivant les % de fidelite de projection constates. Un autre maniere de choisir le nombred’axes a conserver consiste a representer l’eboulis des valeurs propres cf exemple Fig.2.1.

Page 30: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 26

2.2.4 Projection des individus

La coordonnee de l’individu Yi sur le q-ieme axe principal est

ψqi =< Yi, Vq >=

q∑j=1

Y ji V

qj ,

ou on note tV q = (V q1 , . . . , V

qp ) les coordonnees du q-ieme vecteur propre.

Definition 11 On appelle q-ieme composante principale le vecteur ψq ∈ Rn des coor-donnees des n individus sur le q-ieme axe principal :

ψq =

ψq1...ψqn

=

< Y1, Vq >

...< Yn, V

q >

= YV q.

La representation des individus, par exemple sur le plan principal, consiste a tracer lesn points-individus de coordonnees donnees par les vecteurs-colonne (ψ1, ψ2).

Les positions d’individus dans le nuage initial peuvent s’interpreter en terme des va-riables correspondantes : par exemple si les variables representent des mesures, X1 =taille, X2 = poids etc. . ., un individu situe tres a droite sur l’axe 1 s’interpretera commeun individu significativement plus grand que la moyenne (le barycentre du nuage). Maiscomment caracteriser un individu situe tres a droite de l’axe principal 1 dans le nuageprojete ? Le probleme de l’interpretation des positions des individus dans le nuage projete,en terme de “qualification” des axes sur lesquels on les projette, se pose donc. C’est l’objetde l’etude du nuage des caracteres.

2.3 Nuage des caracteres

Dans le nuage des individus, les composantes principales sont les coordonnees d’indivi-dus. Mais on peut aussi les voir comme des caracteres (i.e. des variables statistiques), toutcomme les vecteurs de Rn (X1, . . . , Xp) sont les variables du tableau de donnees initial.La definition 11 permet d’ecrire

ψq = YV q =p∑j=1

V qj Y

j ,

ecriture dans laquelle ψq apparaıt comme combinaison lineaire des caracteres initiaux(centres) Y j , j = 1, . . . , p. Ceci donne une premiere methode d’interpretation des “nou-veaux caracteres” que sont les composantes principales, a l’aide de la matrice des vecteurspropres [V 1, . . . , V p].

Page 31: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 27

Un methode plus pratique consiste a representer les liens statistiques entre caracteresinitiaux Xj et “nouveaux caracteres” ou composantes principales ψj , j = 1, . . . , p. Pourcela, on choisit dans le nuage des caracteres (dans Rn) une metrique appropriee : celleassociee a la matrice de distance N (matrice n×n qui joue le role de matrice de ponderationdans le nuage des individus). On remarque en effet que pour ce choix de metrique :

< Y j , Y k >N =n∑i=1

piYji Y

ki = Γ(Xj , Xk)

||Y j ||2N = σ2(Xj)

cos(Y j , Y k)N =< Y j , Y k >N

||Y j ||N||Y k||N= ρ(Xj , Xk),

ce qui etabli un lien entre representation et mesures statistiques.

D’autre part, la diagonalisation de Γ permet d’ecrire que, pour toutes composantesprincipales de la forme Yu et Yv, u, v ∈ Rp,

Γ(Yu,Yv) = < Yu,Yv >N= tutYNYv = tuΓv

=p∑j=1

λj < V j , u >< V j , v > .

En particulier,

Γ(ψq, ψr) =p∑j=1

λj < V j , V q >< V j , V r >= 0, ∀r 6= q

σ2(ψq) =p∑j=1

λj < V j , V q >2= λq, q = 1, . . . , p.

Les composantes principales sont donc deux a deux non correlees, et de variances decroissantes.

Enfin, on peut egalement ecrire les caracteres initiaux sous la forme Y k = Yek, ouek ∈ Rp est le k-ieme vecteur de la base canonique, d’ou

Γ(ψq, Y k) =p∑j=1

λj < V j , V q >< V j , ek >= λqVqk ,

ρ(ψq, Y k) =

√λqV

qk

σ(Y k)

On represente les liens entre les caracteres initiaux et deux composantes principales ψq

et ψr en tracant un cercle de correlations dans lequel Y j est represente par le vecteur decoordonnees (ρ(ψq, Y j), ρ(ψr, Y j), pour j = 1, . . . , p. L’interpretation de ce cercle permetde qualifier les axes factoriels, par leurs liens avec les caracteres initiaux, et ainsi de donnerdu sens a l’interpretation des plans factoriels.

On peut donner des aides a l’interpretation des plans factoriels. Ces elements sontdetailles au chapitre suivant, § 3.3.1 et § 3.3.2 pour la technique de l’analyse factorielledes correspondances pour laquelle ils sont indispensables.

Page 32: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 28

2.4 Un exemple

La table ci-dessous est le resultat d’une etude de depenses annuelles de 12 menagesfrancais (en francs) en 1972. Les identificateurs des individus (variable Menage) represententle nombre d’enfants du menage (2, 3, 4 ou 5), et les caracteristiques professionnelles du chefde famille, sorte de CSP simplifiee (MA=travailleur manuel, EM=employe non manuel,CA=cadre).

Menage Pain Legumes Fruits Viandes Volailles Lait VinMA2 332 428 354 1437 526 247 427EM2 293 559 388 1527 567 239 258CA2 372 767 562 1948 927 235 433MA3 406 563 341 1507 544 324 407EM3 386 608 396 1501 558 319 363CA3 438 843 689 2345 1148 243 341MA4 534 660 367 1620 0638 414 407EM4 460 699 484 1856 762 400 416CA4 385 789 621 2366 1149 304 282MA5 655 776 423 1848 759 495 486EM5 584 995 548 2056 893 518 319CA5 515 1097 887 2630 1167 561 284

On propose de realiser une ACP non normee, dans la mesure ou les variables quan-titatives sont toutes exprimees en Francs, et afin de tenir compte des differences de prixentre les produits chers et les produits bon marches. L’ACP a ete realisee sous R[7], avecle package ade4 [4]. Nous donnons uniquement les sorties usuelles et les graphiques les plusimportants. Valeurs propres, cumulees et % d’inertie conservee (sorties brutes de R) :

inertia cum ratio1 251928.44 251928.4 0.882 24214.65 276143.1 0.963 5732.94 281876.0 0.984 2108.25 283984.3 0.995 1916.02 285900.3 1.006 310.19 286210.5 1.007 60.33 286270.8 1.00

L’ACP est remarquablement efficace ici, avec 96% d’inertie sur le plan principal. Onse contentera de 2 axes (voir aussi l’eboulis des valeurs propres fig.2.1).

Le Cercle de correlations fig.2.2 permet de voir que la 1ere composante principale ψ1

represente essentiellement les produits chers (Viande, Fruits, Volaille et dans une moindremesure Legume) et est negativemnt correlee avec ceux-ci. Autrement dit, les individus(menages) situes a gauche de l’axe 1 sont plus consommateurs de ces produits que lamoyenne de la population. Noter que la diagonalisation peut, suivant les algorithmes uti-lises par les logiciels, donner des resultats opposes, ce qui ne change rien a l’interpretation

Page 33: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 29

car les projetes se trouvent opposes egalement). La seconde composante principale ψ2

represente elle les produits de consommation “de base” qui sont bon marche (Pain, Lait).Le vin est mal represente sur ce cercle, il est donc correle avec l’une des autres composantesprincipales (on pourrait tracer le cercle (ψ1, ψ3) pour plus d’information).

Le plan principal fig.2.3, projection des individus sur les 2 premiers axes, permet devoir des regroupements selon les modalites des deux facteurs qualitatifs qui sont indiquesdans les labels individus (Menage) : il s’agit de la CSP a valeurs dans CA,EM,MA etdu nombre d’enfants NE a valeurs dans 2, 3, 4, 5.

Representation d’une variable qualitative supplementaire

Il est classique de representer les modalites d’un ou plusieurs facteurs qualitatifs as-socies aux individus. Differents moyens sont utilises : individus reperes par ces modalites,coloration par modalite. La plus utilisee est la representation des barycentre des projetesdes individus par modalites (voir TD). Par exemple, si on souhaite representer un facteura k modalites, note F ∈ 1, . . . , k, sur un plan factoriel (ψq, ψr), on peut representerchaque modalite j par le barycentre des projetes des individus ayant la modalite j. Cecirevient donc a representer j par le point de R2 de coordonnees

((ψq)j ; (ψr)j

), ou

(ψq)j =∑n

i=1 ψqi IFi=j∑n

i=1 IFi=j, j = 1, . . . , k,

moyenne des coordonnees des individus de modalite j sur l’axe q.

Interpretation

La figure 2.3 utilise plusieurs de ces techniques. On voit ainsi que les menages s’or-donnent par CSP (et barycentres de CSP) decroissantes le long de l’axe 1 ce qui signifie(en raison de la correlation negative vue sur le cercle de correlations) que les menages aiseconsomment plus de produits chers.

Les differences de consommation selon l’axe 2 (produits de base tels que Pain et Lait)sont elles plus dependantes du nombre d’enfants du menage (etirement en NE croissant lelong de l’axe 2, et barycentres des nombres d’enfants clairement classes en croissant delong de l’axe 2). On remarque egalement que les CSP “CA” sont moins consommatricesde produits de base, car elles ont tendances a etre dans le demi-plan negatif de l’axe ψ2.

Page 34: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 30

Fig. 2.1 – Eboulis des valeurs propres.

Pain

Legume

Fruit Viande

Volaille

Lait

Vin

Cercle de corrélations

Fig. 2.2 – Cercle de correlations (ψ1, ψ2).

Page 35: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 1. ACP 31

-1000 -500 0 500

-300

-200

-100

0100

200

300

CA

EM

MA

MA2EM2CA2

MA3EM3

CA3

MA4

EM4

CA4

MA5

EM5

CA5

2

3

4

5

Fig. 2.3 – Plan principal avec representation des labels individus colores selon le facteurCSP, ellipses d’inertie selon le facteur CSP (voir ade4), et barycentres des projetes desmodalites des facteur CSP et NE.

Page 36: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Chapitre 3

Analyse Factorielle desCorrespondances

3.1 Principe de l’AFC

L’AFC analyse les liaisons entre deux variables qualitatives a K et L modalites quenous noterons simplement ici X ∈ 1, . . . ,K et Y ∈ 1, . . . , L. Ce type de donnees adeja ete etudie au §1.1.2, ou les representations usuelles ont ete presentees : il s’agit de latable de contingence (loi empirique du couple), des tables des profils-ligne et colonnes, etdes histogrammes des profils correspondants. C’est aussi dans ce cadre qu’a ete donne letest du χ2 pour l’hypothese nulle d’independance de X et Y .

Exemple : Les donnees suivantes (source : Cohen 1980) representent la ventilation de592 femmes suivant leurs couleurs des yeux et des cheveux. On souhaite analyser ladependance entre ces deux caracteres, et etudier les eventuelles associations entre cescouleurs.

Yeux\Cheveux brun chatain roux blondmarron 68 119 26 7noisette 15 54 14 10

vert 5 29 14 16bleu 20 84 17 94

L’AFC consiste en une double ACP sur les profils-lignes et les profils-colonnes, avec lametrique du χ2 et les ponderations marginales.

– La notion d’individu disparaıt, au profit des modalites de l’une ou l’autre variable.– Avec ce choix de metrique, l’inertie I est proportionnelle a la statistique du test duχ2 d’independance de X et Y .

– On recherchera une representation simultanee des deux nuages, afin d’etudierles rapprochements entre modalites de variables differentes.

32

Page 37: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 2. AFC 33

3.1.1 ACP des Profils-ligne

On convient de representer la table de contingence de X et Y avec les modalites de Xen colonne et les modalites de Y en ligne. Pour l’exemple on note donc X = couleur desyeux, et Y = couleur des cheveux. La table est donc une matrice K × L, dont le terme(i, j) est la frequence des reponses (i, j) :

fij =1n

n∑`=1

IX`=i,Y`=j .

Le i-eme profil-ligne est (fij/fi·, j = 1, . . . , L) vu comme point de RL, affecte du poids fi·,ceci pour i = 1, . . . ,K. Rappellons qu’il s’agit de la probabilite (empirique) de Y condi-tionnelle a X = i, et on la represente par la modalite i de X.

Voici par exemple les tables de profils associees a ces donnees.

Profils-ligne (distributions de couleur des cheveux conditionnelle a la couleur des yeux) :

brun chatain roux blondmarron 0.309 0.541 0.118 0.032noisette 0.161 0.581 0.151 0.108vert 0.078 0.453 0.219 0.250bleu 0.093 0.391 0.079 0.437

Profils-colonne (distributions de couleur des yeux conditionnelle a la couleur des che-veux) :

brun chatain roux blondmarron 0.630 0.416 0.366 0.055noisette 0.139 0.189 0.197 0.079vert 0.046 0.101 0.197 0.126bleu 0.185 0.294 0.239 0.740

On note :

– S la matrice a diagonaliser (dont on ne precise pas l’expression ici)– λq la q-ieme valeur propre (parmis les valeur propres triees), et uq ∈ RL le vecteur

propre associe ; autrement dit Suq = λquq.

– ψq ∈ RK la q-ieme composante principale, c’est-a-dire le vecteur des coordonneesdes K profils-ligne (modalites de X) sur le q-ieme axe principal. La coordonnee dela modalite i sur l’axe q est donc la i-ieme coordonnee ψqi de ψq.

Le nuage projete dans le plan principal 1–2 est donc le graphique des K modalitesde X, ou i est representee par le point (ψ1

i , ψ2i ), ceci pour i = 1, . . . ,K.

Dans cet exemple, le % d’inertie conserve sur le plan principal est de 98.9%. Lesmodalites des couleurs des yeux ont pour coordonnees :

Page 38: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 2. AFC 34

Psi1 Psi2marron -0.4921577 0.08832151noisette -0.2125969 -0.16739109vert 0.1617534 -0.33903957bleu 0.5474139 0.08295428

3.1.2 ACP des Profils-colonne

Le j-eme profil-colonne est (fij/f·j , i = 1, . . . ,K) vu comme point de RK , affecte dupoids f·j , ceci pour j = 1, . . . , L. On le represente par la modalite j de Y (une couleur decheveux ici). On note cette fois T la matrice a diagonaliser.

On montre que les min(K,L) valeurs propres des deux ACP sont les memes.On note donc Tvq = λqv

q les elements de la diagonalisation de T (vq ∈ RK), et ϕq ∈ RL

la q-ieme composante principale. La coordonnee de la modalite j sur l’axe q est note ϕqj .Le nuage projete dans le plan principal est le graphique des L modalites de Y representeespar les points (ϕ1

j , ϕ2j ), j = 1, . . . , L.

3.1.3 Choix des axes a conserver

En raison de la relation de liaison entre les coordonnees (probabilites empiriques, donctoutes somment a 1), les nuages sont dans les hyperplans de dimension (L − 1) pour lesprofils-ligne, et (K − 1) pour les profils-colonne. On montre que λ1 ≤ 1 (donc toutes lesvaleurs propres sont inferieures a 1, et que le premier axe est celui qui lie l’origine durepere au barycentre (l’ACP ne se fait pas dans le cas de l’AFC sur le nuage centre), etest associe a λ1 = 1. On le retire donc de l’analyse.

Comme les valeurs propres sont petites en AFC, on utilise parfois le critere du coudesur les

√λq, q = 2, . . . ,min(K,L). Un autre critere est d’utiliser le fait que I =

∑q λq est

proportionnelle a la statistique du test du χ2. On peut donc effectuer des test successifs duχ2 axe apres axe, en retirant a chaque fois une valeur propre de la statistique. On s’arretequand l’hypothese d’independance n’est plus rejetee.

3.2 Relations quasi-barycentriques

On deduit des liens entre les composantes principales et les facteurs des deux ACP lesrelations, dites quasi-barycentriques, suivantes (valables sur tout axe q) :

ψqi =1√λq

L∑j=1

fijfi·ϕqj , i = 1, . . . ,K

ϕqj =1√λq

K∑i=1

fijf·jψqi , j = 1, . . . , L

Page 39: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 2. AFC 35

La premiere relation signifie par exemple que, a√λq pres, les projections des points-

lignes ψqi (modalites couleur des yeux) sont egalement les barycentres des projections despoints-colonnes ϕqj (modalites couleurs des cheveux), avec pour coefficients du barycentreles profils ligne fij/fi·. On parle de “quasi-barycentre” en raison du rapport de 1/

√λq sur

chaque axe q. On dispose donc de deux representations graphiques simultanees :

– quasi barycentrique ligne : Les points-colonnes representatifs des modalites deY sont quasi-barycentre des points-lignes representatifs des modalites de X, issus del’ACP sur la matrice S

– quasi barycentrique colonne : On realise l’ACP des points-colonnes (matrice T)et on positionne les points-lignes comme quasi-barycentres.

-0.4 -0.2 0.0 0.2 0.4 0.6 0.8

-0.3

-0.2

-0.1

0.0

0.1

0.2

Axe 1

Axe

2

Représentation simultanée

marron

noisette

vert

bleu

brun

chatain

roux

blond

Fig. 3.1 – Representation simultanee dans le plan principal ; les modalites-ligne (couleurdes yeux) sont en noir, et les modalites-colonne (couleur des cheveux) en rouge.

Page 40: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 2. AFC 36

3.3 Quelques regles et aides a l’interpretation

On s’interesse aux oppositions et proximites entre les modalites :

• La disposition relative de deux points d’un meme ensemble representant les modalitesd’une variable s’interpretent comme une distance entre modalites ;• La disposition d’un point d’un ensemble – modalite d’une variable – par rapport aux

points de l’autre ensemble – modalites de l’autre variable – s’interprete comme unbarycentre ;• Toute proximite entre points-lignes et points-colonnes est a prendre avec precaution,

et doit etre controlee sur les resultats chiffres.• Les proximites observees sur les plans factoriels suivants decrivent des termes cor-

rectifs par rapport a ce qui a ete remarque sur les 2 premiers axes (ceci est lie a ladecomposition de l’inertie, proportionnelle a la statistique du χ2, sur les axes).

3.3.1 Contributions a l’inertie des axes

Par exemple pour les points-lignes :

• la contribution de la modalite i a l’axe q, Cq(i) = fi·(ψqi )

2/λq, indique dansquelle proportion la modalite i contribue a l’inertie λq du nuage projete sur uq• On qualifie les axes a partir des modalites qui contribuent le plus a l’inertie de ces

axes.

3.3.2 Qualite de representation ou cosinus carres

Par exemple pour les points-lignes : Les axes factoriels etant des bases orthonormees,d2(Yi,G) se decompose en somme des coordonnees sur les axes,

∑Ki=1(ψqi )

2.

• La qualite de representation de la modalite i sur l’axe q est cos2q(i) =

(ψqi )2/d2(Yi,G), d’autant plus proche de 1 que la position du projete est proche

de la position reelle du point.• La qualite de representation de l’espace de description retenu s’appuie sur les cos2

cumules. Par exemple la modalite i a une qualite de representation egale a cos21(i) +

cos22(i) dans le plan factoriel 1–2.

• On interprete surtout les proximites entre points ayant des qualites de representation(cos2 cumules) elevees.

Dans notre exemple, le faible nombre d’axes initiaux et le % eleve d’inertie conservefait que les cos2 cumules sont tous tres eleves, compris entre 87.8% et 99.9%. Voici lessorties avec le logiciel R, qui les exprime en 10 000-iemes :

# Cos2 cumules ligne et colonnesAxis1 Axis2 remain

marron 9670 9981 19

Page 41: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 2. AFC 37

noisette 5424 8787 1213vert 1759 9484 516bleu 9775 9999 1

brun 8380 9899 101chatain 8644 9063 937roux 1333 9451 549blond 9927 9996 4

# Contributions absoluesAxis1 Axis2

marron 4312 1304noisette 340 1980vert 135 5591bleu 5213 1124

brun 2225 3788chatain 509 232roux 96 5513blond 7170 467

Les proximites constatees entre par exemple les modalites cheveux-roux et yeux-vert,ou cheveux-blond et yeux-bleu sont significatives.

Page 42: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Chapitre 4

Analyse des CorrespondancesMultiples

L’Analyse des Correspondances Multiples (ACM) est une generalisation de l’AFC aucas ou l’on observe plus de 2 variables qualitatives. Formellement, il s’agit donc de l’analysed’un hypercube de contingence. On verra que, au prix d’un recodage approprie des donnees,il s’agit d’utiliser les methodes de calcul de l’AFC mais avec des regles d’interpretationdifferentes.

4.1 Structure des donnees

4.1.1 Notations

On pose s questions (X1, . . . , Xs) a n individus. On note pq le nombre de modalitesde la question Xq, modalites codees generiquement

Xq ∈ 1, . . . , pq, q = 1, . . . , s.

La table individus-caracteres X resultat d’un tel sondage est une matrice n × s qui n’apas de sens statistique (les valeurs dependent des pq). L’idee naturelle est d’exploiter latable de contingence multiple (en dimension s) de ces donnees, mais cette table est peumaniable. On lui prefere donc l’un des recodages suivants.

Le tableau disjonctif complet : On note p =∑s

q=1 pq le nombre total de modalitesdes s questions. Soit Zq la matrice (n×pq) issue du recodage binaire de la q-ieme question :

Zqij = 1 si Xqi = j, et Zqi` = 0, ` 6= j.

38

Page 43: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 39

Le tableau disjonctif complet est la matrice (n × p) Z = [Z1 · · ·Zs]. Par exemple pourn = 4, s = 3, p1 = 2, p2 = 3, p3 = 2, et les donnees X ci-dessous, on obtient :

X =

1 3 12 1 11 1 12 2 2

Z =

1 0 0 0 1 1 00 1 1 0 0 1 01 0 1 0 0 1 00 1 0 1 0 0 1

Les sommes en ligne sont Zi· =

∑pj=1 Zij = s ∀i, et les sommes en colonnes Z·j =∑n

i=1 Zij = le nombre d’individus ayant choisi la modalite j. La somme totale de la tableest Z·· = ns.

Le tableau de Burt : Il s’agit d’un tableau constitue de la “mise a plat” des faces del’hypercube de contingence, matrice (p× p)

B = tZZ, de terme general Bjk =n∑i=1

ZijZik.

On verifie immediatement que :– Zjk = 0 si j et k sont deux modalites d’une meme question ;– Zjj = Z·j si j = k ;– Zjk = le terme (j, k) de la table de contingence croisant Xq et Xr si j et k sont deux

modalites de deux questions differentes Xq et Xr.Pour les donnees de l’exemple ci-dessus, la table de Burt est :

2 0 1 0 1 2 00 2 1 1 0 1 11 1 2 0 0 2 00 1 0 1 0 0 11 0 0 0 1 1 02 1 2 0 1 3 00 1 0 1 0 0 1

4.2 Principe de l’ACM

L’ACM peut etre presentee comme une AFC du tableau disjonctif complet Z. Cecisignifie que l’on applique les principes suivants :

– transformation de Z en profils ligne et colonne ;– ponderations par les marges de la table ;– choix de la metrique du χ2 relativement aux barycentres ;– projection des nuages lignes et colonnes avec relation de dualite ;Cependant, a la difference de l’AFC, on retrouve ici une notion d’individus (les lignes).

On peut utiliser une representation simultanee quasi-barycentrique comme en AFC, maisen general les individus sont ici anonymes et tres nombreux. Enfin, cette approche estanalogue a celle consistant a realiser une AFC du tableau de Burt.

Page 44: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 40

4.2.1 Distances et ponderations

Les profils-ligne issus de Z sont les n points de Rp

(Zij/s, j = 1, . . . , p), i = 1, . . . , n,

affectes des poids Zi·/ns = 1/n pour tous les individus. Le barycentre est le profil moyen(Z·j/ns, j = 1, . . . , p). On verifie immediatement que la distance entre deux individus i et` pour la metrique du χ2 par rapport au barycentre est

d2(i, `) =n

s

p∑j=1

1Z·j

(Zij − Z`j)2.

En particulier, d2(i, `) = 0 si Zij = Z`j pour tout j : Deux individus sont d’autantplus proches qu’ils ont repondu de la meme maniere aux s questions.

Les profils-colonne sont les p points de Rn

(Zij/Z·j , i = 1, . . . , n), j = 1, . . . , p.

Les ponderations et le barycentre jouent des roles permutes par rapport aux profils ligne,et la distance entre deux modalites j et k est

d2(j, k) =n∑i=1

n

(ZijZ·j− Zik

Z·k

)2

.

Donc deux modalites sont d’autant plus proches qu’elles ont ete choisies parles meme individus.

4.2.2 Relations quasi-barycentriques

On ne detaille pas ici les calculs qui sont similaires a ceux de l’AFC, c’est-a-dire a ceuxde l’ACP. Comme en AFC, on a des relations de transitions entre composantes principalesd’un nuage et facteurs de l’autre nuage. On en deduit les relations quasi-barycentriquessuivantes entre les composantes principales de l’ACP des lignes, ψq, et celles de l’ACP descolonnes, ϕq :

ψqi =1√λq

p∑j=1

Zijsϕqj , i = 1, . . . , n

ϕqj =1√λq

n∑i=1

ZijZ·j

ψqi , j = 1, . . . , p

que l’on peut ecrire aussi comme

ψqi =1

s√λq

∑j∈M(i)

ϕqj , i = 1, . . . , n

ϕqj =1

Z·j√λq

∑i∈I(j)

ψqi , j = 1, . . . , p

Page 45: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 41

ou M(i) = j : Zij = 1, ensemble des modalites choisies par l’individu i, de cardinal s,et ou I(j) = i : Zij = 1, ensemble des individus qui ont choisi la modalite j, de cardinalZ·j . L’interet de cette nouvelle ecriture est qu’elle fait apparaıtre de simples barycentres(moyennes arithmetiques).

Donc a√λq pres, l’individu i se trouve projete au barycentre du projete du

nuage des modalites qu’il a choisi.

De meme, a√λq pres, la modalite j se trouve projetee au barycentre du

projete du nuage des individus qui l’ont choisie.

4.2.3 Inerties du nuage des modalites

La distance d’une modalite au barycentre est

d2(j,G) =n

Z·j− 1

donc les modalites sont plus eloignees si elles sont peu representees. On verifie que l’inertiede la modalite j est Ij = (1 − Z·j/n)/s, donc d’autant plus importante que j est peurepresentee. En sommant sur les modalites appartenant a une meme question Xq, onobtient l’inertie d’une question Iq = (pq − 1)/s. Donc la part d’inertie d’une questionaugmente avec le nombre de modalites de la question. Elle est minimale pour pq = 2, etvaut alors 1/s.

On a donc interet a choisir un sondage avec des questions a nombre demodalites comparables.

Enfin, en sommant sur les q questions, on obtient l’inertie totale du nuage I = p/q−1,qui n’a pas d’interpretation statistique, au contraire de l’AFC.

4.2.4 Quelques regles d’interpretation

Les quelques regles que l’on peut mettre en avant viennent de l’interpretation desrelations quasi-barycentriques :

– la proximite d’individus signifie des choix de modalites similaires ;– La proximite de modalites de variables differentes s’interprete par le fait qu’elles ont

ete choisies par les memes individus ;– la proximite de modalites appartenant a une meme question est impossible directe-

ment, puisque ces modalites s’excuent mutuellement. Cependant, cela peut se pro-duire si les individus qui les ont choisies se ressemblent relativement a d’autresvariables (questions).

Contributions et qualites de representation Comme en AFC, on peut calculer cesindicateurs et aides a l’interpretation. La specificite d l’ACM ait qu’il est naturel ici deregrouper les modalites par variables. On calcule ainsi les contributions de la variable Xk

Page 46: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 42

a l’axe q par la somme des Cq(j) sur les modalites j de Xk. Ceci permet de mettre enevidence les variables qui ont participe le plus a la formation des axes principaux.

Les pourcentages d’inertie sont en general faibles en ACM ; ce sont des indicateurs pes-simistes de l’information conservee sur les plans factoriels. ce ci est notamment du au reco-dage disjonctif. Certaines methodes d’ajustement, ou d’autres indicateurs de l’inertie ontete propose. Le logiciel SAS propose de telles methodes dans la procedure CORRESP. On secontente souvent de l’interpretation des proximites observees entre modalites du plan prin-cipal. Lorsque les individus sont anonymes et (tres) nombreux, on evite la representationsimultanee qui introduit une surcharge graphique inutilisable.

On represente parfois des barycentres de groupes d’individus definis par d’autres va-riables qualitatives, afin de voir comment se positionnent ces groupes par rapport auxmodalites de l’analyse.

Page 47: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Chapitre 5

Annexes pour l’usage de SAS

Ce document a ete redige en utilisant le logiciel R pour les exemples, avec quelquesindications des procedures utilisees.

Les pages qui suivent donnent, elles, quelques synopsis elementaires des proceduresstandard de SAS pour les methodes factorielles. Le document [3] distribue en cours decritles methodes elementaires de maniement du logiciel et les methodes de statistiques des-criptives correspondant au chapitre 1. Il existe en ligne de nombreux sites sur lesquels onpeut trouver des macros SAS qui effectuent les meme calculs en ameliorant les sorties stan-dards, ou en les adaptant aux pratiques utilisees (par exemple, le cercle de correlations enACP n’est pas propose en standard par la procedure d’ACP de SAS, car les anglo-saxonsutilisent une autre technique de representation des caracteres).

5.1 ACP – PROC PRINCOMP

La procedure standard qui realise une ACP sous SAS est PRINCOMP. Elle n’effectue queles calculs elementaires des valeurs et vecteurs propres, pourcentages de fidelite de pro-jection et composantes principales. Les graphiques standards (eboulis des valeurs propres,plans factoriels individus et cercles de correlations, doivent etre realises a partir des sor-ties de PRINCOMP. On peut egalement trouver ou ecrire des macros SAS pour effectuer uneanalyse complete. On donne ici un synopsis des elements principaux (les conventions denotations correspondent a celles du document [3].

PROC PRINCOMP [options][VAR var . . . ;] variable(s) a traiter[BY var . . . ;] variable(s) de groupement[FREQ var ;] ponderation par l’effectif des observations[WEIGHT var ;] variable de ponderation des observations

43

Page 48: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 44

options dans PROC PRINCOMP specifie notamment les entrees/sorties, le type d’analyse etles sorties dans la fenetre OUTPUT. Voici les principales options disponibles :

Options relatives aux tables SAS

DATA=nom de table table SAS d’entree, qui peut etre une tablestandard (individu-caractere), ou une table SASde type CORR ou COV.

OUT=nom de table table SAS de sortie contenant les variablesinitiales et les composantes principales.

OUTSTAT=nom de table table SAS de sortie, de type CORR (ou COVsi l’option COV est presente). Cette table contientquelques statistiques usuelles, la matrice decorrelation (ou de variance), les valeurs propreset les vecteurs propres de l’ACP.

Options relatives a l’analyse

COV effectue l’ACP a partir de la matrice de variancedes donnees (ACP non normee).Sinon, SAS utilise la matrice de correlation.

N=q ne calcule que les q premieres CP

PREFIX=nom prefixe des nom des CP, qui s’appellerontnom1, nom2,. . .,nomq icipar defaut PRIN1, PRIN2,. . .,PRINq.

STANDARD reduit les CP dans la table de sortie (OUT=)

VARDEF=DF|N|WGT|WDF precise le diviseur dans les calculs de variancesau choix : n− 1, n,

∑iWi, (

∑iWi)− 1.

NOPRINT supprime l’affichage (OUTPUT).

5.2 AFC et ACM – PROC CORRESP

La procedure CORRESP accepte deux types de table d’entree : une table individus-caracteres brute ou une table de contingence (a 2 facteurs pour une AFC, ou table de

Page 49: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 45

Burt pour une ACM).

PROC CORRESP [/options...]TABLES var qualitative . . . ; pour donnees de type individus-caracteres

OUVAR var comptages . . . ; pour donnees de type table de contingence[ID variable noms lignes ;] pour AFC avec VAR uniquement

[BY variable ;] traitement par groupes[WEIGHT variable ;] frequence des observations (defaut= 1 pour tous)[SUPPLEMENTARY var... ;] var. supplementaires (figurant dans VAR ou TABLES)

Quelques options de CORRESP relatives aux tables SAS :

DATA=nom de table table d’entreeOUT=nom de table table de sortie des coordonnees

Quelques options de CORRESP relatives a l’analyse :

MCA=nom effectue une ACMDIMENS=d ne calcule que les d premiers axes ; 2 par defautPROFILE=both|column|row type de representation simultanee (defaut=both)NVARS=s nombre de var. dans le cas d’une ACM avec VAR

Quelques options de CORRESP relatives aux sorties (OUTPUT) :

CP affiche les profils colonnesRP affiche les profils lignesOBSERVED affiche la table de contingence ou de BurtSHORT sorties simplifiees

5.2.1 Exemples

Donnees sous la forme table individus-caracteres Voici des donnees “jouet”, tableindividus-caracteres de 6 individus et 4 variables qualitatives (a 2 modalites), pour lesexemples suivants.

Page 50: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 46

DATA tic;input nom $ age $ sexe $ taille $ cheveux $;cards;nom1 vieux M grand brunnom2 jeune M petit blondnom3 jeune F grand brunnom4 vieux F grand blondnom5 jeune M petit brunnom6 jeune F petit blond;run;

AFC, donnees = table de contingence Les donnees sont la table de contingence desvariables age×sexe du tableau individus-caracteres (la procedure FREQ peut generer cetype de table).

DATA ex1; /* entree = table de contingence */input age $ F M;cards;jeune 2 2vieux 1 1;

PROC corresp data=ex1 out=results observed rp profile=both;var F M;ID age ;run;

AFC sur 2 facteurs parmi les 4 Ici c’est CORRESP qui cree la table de contingence apartir des donnees brutes, avant d’en faire l’AFC.

PROC corresp data=tic out=results observed rp;tables sexe taille;run;

ACM sur les 4 facteurs Ici, CORRESP cree une table de Burt, la visualise (optionOBSERVED), et effectue l’ACM de cette table.

PROC corresp data=tic out=results observed rp mca;tables age sexe taille cheveux;run;

Page 51: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 47

5.3 Methodes de classifications

5.3.1 Classification Non Hierarchique, PROC FASTCLUS

Cette procedure effectue une classification en classes disjointes, avec une methode detype “centres mobiles” (K-means) avec des centres initiaux qui ne sont pas choisis auhasard (par defaut). Il est preferable de l’utiliser sur de grands jeux de donnees (plus de100 observations), en raison de la dependance aux observations (choix des centres initiauxpour de petits echantillons.

PROC FASTCLUS MAXC=n|RADIUS=r [options]on precise n, nombre maximum de classes,ou r, distance minimum entre deux centres.

[VAR var . . . ;] variable(s) a traiter[BY var . . . ;] variable(s) de groupement[FREQ var ;] ponderation par l’effectif des observations[WEIGHT var ;] variable de ponderation des observations

Options relatives aux tables SAS

DATA=nom de table table SAS d’entree (observations).OUT=nom de table table SAS contenant les variables d’entree

ainsi que les variables CLUSTER et DISTANCE.MEAN=nom de table table SAS contenant les barycentres

et quelques statistiques concernant les classes.CLUSTER=nom nom de la variable de classification dans les tables

SAS crees par OUT= et MEAN= (defaut=CLUSTER)

Le fichier de sortie OUT= contient une variable (CLUSTER par defaut) qui donne pourchaque observation sa classe d’appartenance.

Options relatives a la classification

REPLACE=FULL|RANDOM methode de selection des centres initiaux.DELETE=n supprime les classes de moins de n observations.DRIFT recalcule a chaque affectation d’une observation

le barycentre de la classe concernee.MAXITER=i nombre d’iterations maximum (defaut=1)

Page 52: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 48

Options diverses

NOPRINT supprime l’affichage (OUTPUT).DISTANCE affiche les distances entre centres de classes.LIST liste des observations, avec classe d’appartenance

et distance au centre de la classeSUMMARY affichage simplifie

Attention, FASTCLUS ne reduit pas les donnees. Si necessaire, utiliser la procedureSTANDARD pour reduire les donnees lorsque la normalisation est necessaire :

PROC STANDARD MEAN=m STD=s [options]centre et reduit de sorte que X = m et S = s

[VAR var . . . ;] variable(s) a traiter[BY var . . . ;] variable(s) de groupement[FREQ var ;] [WEIGHT var ;] cf autres procedures

Options dans STANDARD

DATA=nom de table table SAS d’entreeOUT=nom de table table SAS contenant les variables normaliseesVARDEF=DF|N|WGT|WDF precise le diviseur dans les calculs de variances

5.3.2 Classification Hierarchique, PROC CLUSTER

PROC CLUSTER METHOD=methode [options] ;[VAR var . . . ;] variable(s) a traiter[BY var . . . ;] variable(s) de groupement[FREQ var ;] ponderation par l’effectif des observations[ID var ;] variable d’identification des observations[COPY var . . . ;] variables incluses dans la table de sortie OUTTREE

Le principe de classification est toujours le meme : on demarre avec une classe parobservation, puis on regroupe a chaque etape les deux classes les plus proches. le choix dela methode parmi 11 possibilites determine uniquement le calcul de la distance entre deuxclasses. Par exemple :

AVERAGE moyenne des distances entre paires d’individus

Page 53: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 49

SINGLE distance entre plus proches voisinsWARD critere de type variance minimumCENTROID distance entre barycentres des classes

Quelques options de CLUSTER

DATA=nom de table table SAS d’entreeOUTTREE=nom de table table SAS pour creation d’un dendrogrammeSTANDARD normalise les variables avant tout calculPRINT=n reduit la sortie aux n derni eres generationsNOPRINT supprime l’affichage (OUTPUT).

5.3.3 Dendrogramme, PROC TREE

PROC TREE [options] ;[ID var ;] variable d’identification des observations[BY var . . . ;] variable(s) de groupement[FREQ var ;] ponderation par l’effectif des observations[COPY var . . . ;] variables incluses dans la table de sortie

options dans TREE

DATA=nom de table table SAS d’entree creee par CLUSTEROUT=nom de table table de sortie (avec variable CLUSTER)NCL=n | N=n nombre de classes dans la table de sortieNOPRINT supprime l’affichage (OUTPUT).HEIGHT=H|L|N indication sur l’arbre de :

H : valeurs de la var HEIGHT definie par l’utilisateurL : nombre d’ancetresN : nombre de classes

Page 54: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Bibliographie

[1] Benzecri, J.P. L’Analyse des Donnees, Tome 1 : la taxinomie, Tome 2 : l’Analyse descorrespondances. 3eme Ed, Dunod, 1979.

[2] Bouroche, J.M., Saporta, G. L’Analyse des Donnees, PUF, Que sais-je no 1854, 1983.

[3] Chauveau D. Initiation au logiciel SAS, Notes de cours, 2009.

[4] Chessel D., Dufour A.-.B., and Thioulouse J. (2004) : The ade4 package-I- One-tablemethods. R News. 4 : 5-10.

[5] Dacunha-Castelle D., Duflo M. Probabilites et Statistiques, Tome 1, Masson, 2d Edi-tion, 1994.

[6] Lebart, L., Morineau, A. et Piron, M., Statistique exploratoire multidimensionnelle,2eme Ed.,Dunod, 1997.

[7] R Development Core Team (2007). R : A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org

[8] Saporta, G. Probabilites, analyse des donnees et statistiques, Tecnip, 1990.

50

Page 55: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

Index

p-valeur, 8ecart interquartiles, 13ecart-type, 14

ACP, 19axe principal, 25cercle de correlations, 27composante principale, 26facteur principal, 25

AFC, 32representation simultanee, 34

barycentre, 23boıte et moustaches, 13boxplot, 13

caractere, 2qualitatif, 3quantitatif, 10

centrage, 12coefficient de correlation empirique, 16covariance empirique, 15

deciles, 13discretisation, 10distance

de l’ACP normee, 23du χ2, 7Euclidienne, 22

facteur, 3, 13, 17fidelite de projection, 25formule de Bayes, 5

histogramme, 4, 10des profils, 6nombre de classes, 10

inertieautour d’un point, 23autour d’un sous-espace, 24

localisation, 11logiciel R, 2, 11

median, 12plot, 4qchisq, 9sd, 14spineplot, 6table, 4tapply, 18var, 14

loi de probabiliteconditionnelle empirique, 5du chi-deux, 8empirique, 4empirique du couple, 5marginale, 5

mediane empirique, 12methode des moindres carres, 16matrice de correlations empiriques, 22matrice de covariances empiriques, 21moyenne empirique, 11

nuage de points, 15

ponderation, 11prediction, 16probabilite critique, 8profils-colonne, 5profils-ligne, 5

qualitatif, 2quantile empirique, 12

51

Page 56: 2012{2013 STATISTIQUES DESCRIPTIVES ET ANALYSE DE …thebear45.free.fr/miage/Master 1/Analyse de données/M1_Anadon.pdf · Carl M 32 178 70 EM Antonio M 39 183 75 CA Deborah F 30

CHAPITRE 3. ACM 52

quantitatif, 2quartiles, 13

reduction, 14regression lineaire, 16

statistiques d’ordre, 12

table de contingence, 5table des frequences, 4table individus-caracteres, 2, 19, 21Test d’independance du χ2, 6

variance empirique, 14