ANALYSE DE DONNEES

61
ANALYSE DES DONNEES Partie I : - ACP (analyse en composante principales) - AFC (analyse factorielle des correspondances) - AFCM (Analyse en composante multiple) - AD (analyses discriminantes) Partie II : - Application informatique (ASA SPSS STATA R S plus SPAD…..) 1

Transcript of ANALYSE DE DONNEES

Page 1: ANALYSE DE DONNEES

ANALYSE DES DONNEES

Partie I :

- ACP (analyse en composante principales)

- AFC (analyse factorielle des correspondances)

- AFCM (Analyse en composante multiple)

- AD (analyses discriminantes)

Partie II :

- Application informatique (ASA SPSS STATA R S plus SPAD…..)

1

Page 2: ANALYSE DE DONNEES

Rappels sur la statistique classique :

I- Données

La statistique descriptive classique se propose d’étudier des populations composées d’individus vus sous l’angle d’un seul caractère (quantitatif ou qualitatif)

Remarque : en générale on parle de variable à la place de caractère.

Exemple :

Population Caractère qualitatif Caractère quantitatif Secteur d’activité d’une économie

Valeur ajoutée Région (localité)

Les factures de la société X SA pour l’économie N

Montant Type de clientèle

Les points de ventes d’un produit P

Nombre d’unité vendu à la date N

Conditionnement

Pour une interprétation plus élevée les données collectées sont synthétisé sous fourme de paramètre de position (moyenne, médiane, mode etc.……) ou de dispersion (Variances, étendus …..), de représentation graphique (Histogramme, diagramme en bâton, en secteur….)

Remarque 1: Ces synthèses et représentions sont forcement réductrice mais elles facilitent l’interprétation des données (en faisant les principales caractéristiques).

Remarque 2 : il est parfois souhaitable de rendre quantitatif certains caractères qualitatif ceci dans le but de pouvoir mener des calculs intéressent.

Exemple : « l’étude de satisfaction clientèle »

L’opinion des clients sur les produits de la société X SA, peut s’exprimer à travers une note de 1 à 5.

b) Rappels sur les séries simples (étude d’une seule variable)

Valeur du caractère x x1…………………xp TotalEffectif partiel n1……………………..np ∑ ¿= n

La moyenne arithmétique

x=1n∑ nixi (ni= 1 si les données sont individualisées)

Variance

( x+x )2= yi

2

Page 3: ANALYSE DE DONNEES

V (x )=1n∑ (xi−x)2

Ecart-type

𝜎 = √V (x)

*La médiane

La médiane est la valeur de la variable noté Me qui partage les effectifs rangés dans l’ordre croissant ou décroissant en deux groupes d’effectifs égaux.

*Le Mode

C’est la valeur la plus fréquente ou c’est la valeur de la variable qui correspond à l’effectif le plus élevé.

C) Les série statistiques doubles (bidimensionnelles)

Il s’agit d’étudier ici une population vu sous l’angle de deux caractères ex : (valeur ajouté et région).

Population Caractère I Caractère IISecteur d’activité Valeur Ajoutée Région

On s’intéresse essentiellement à une éventuelle liaison existant entre les deux caractères

Cas 1 : cas ou les deux variables sont quantitatives

On vérifie s’il y a une corrélation en représentant sur un plan les points des coordonnées (x, y)

Exemple :

Entreprises Chiffre d’affaire Effectif moyenE1 20 37E2 25 45E3 35 49

Nuage des points

On peut chercher à ajuster une courbe d’équation y = f(x) à ce nuage de points.

En cas de corrélation linéaire, l’intensité est mesuré par le coefficient de corrélation linéaire

noté r(x,y)= cov (x , y )

δxδy. Є [-1 ; 1]

3

Page 4: ANALYSE DE DONNEES

Corrélation forte

-1 0,9 0,9 1

Cas2 : Cas ou les deux variables sont qualitatives

On obtient alors un tableau qui croise deux variables qualitatives. L’analyse sera fondée sur un test d’indépendance du Khi2.

Exemple 1 :

Région

Secteur d’activitéCentre Nord ………….

AgricultureIndustrie

Exemple 2 :

X ayant 2 modalités

Y ayant 3 modalités

On pose :

X Y1 12 31 22 22 32 12 2

4

On croise X & Y

Y X

1 2 3

1 1 1 0

2 1 2 2

Page 5: ANALYSE DE DONNEES

Cas3 : cas ou l’une des variables est qualitative et l’autre quantitative.

On obtient une possibilité de comparaison des moyennes prise par la variable quantitative et ceci pour chaque modalité de la variable qualitative.

L’analyse peut alors se traduire par un test de comparaison de moyennes de deux échantillons.

Rappels sur les séries bi-variées

Etude simultanée de deux variables X Y

Tableau

Moyenne arithmétique de la variable X

x=1n∑i=0

n

xi

Moyenne arithmétique de la variable Y

y=1n∑i=0

n

yi

Les variances

V ( x )=1n∑ ¿¿

V ( y )=1n∑ ( yi− y)2

Les écart-types

𝜎 = √ V (x)𝜎 = √ V ( y ) Covariance entre les variables X et Y

Cov (x, y) = 1n∑

1

n

( xi−x ) ( yi− y )²

Remarque : si X = Y alors Cov(x, y) = Cov(x, x) = Var(x)

2) L’analyse des données multidimensionnelles

5

Page 6: ANALYSE DE DONNEES

a) Les différents types de tableaux à traiter

Tableau de mesure : Individus croisé avec caractères quantitatifs

Ex : trois entreprises Dakaroise sont étudiés sous l’angle de plusieurs paramètres économiques et financiers.

CA Effectif moyen

Valeur Ajouté

Résultat net % du CA

Salaire net mensuel

PME1 3 9 1,1 0,9 1100PME2 26 48 13 1,2 1200PME3 54 47 29 3,5 1240

Tableaux de contingences (tableau qui croise deux variables qualitatives ou une variable qualitative et une variable quantitative)

Un tableau de contingence est un tableau croisé qui ventile une certaine quantité selon les modalités de caractère.

- Deux variables qualitatives

Ex :

Nord Est ………Agricole n

Industrie

- 1 variable qualitative et 1 variable quantitative

Ex : « enquêtes sur les opinions politiques …….. »

OpinionsAge

Benno Fal 2012 Rewni APR YNM

[18-25[ 8 12 10 11 25[25-30[ 9 17 15 17 19[30-40[ 13 11 25 19 27[40-60[ 27 32 17 15 08

Interprétations :

Les électeurs âgés 30 à 40 ans ayant une sensibilité politique proche d’YNM sont 27.

Remarque : Dans un tableau de contingence la somme des lignes et la somme des colonnes a toujours un sens.

Tableaux logiques

6

Page 7: ANALYSE DE DONNEES

Ces tableaux concernent des individus étudiés sous l’angle de plusieurs variables qualitatives. Chaque variable pouvant prendre plusieurs modalités.

Si l’individu possède la modalité d’une variable on lui affecte le coefficient 1 si non le chiffre 0.

Ex : « étudiants sont regardés sous l’angle de leur sexe de leur préférence musicale et picturale. »

Sexe Préférence musicale Préférence picturaleH F Jazz Mbala RNB Raggea Figuration Abstraite

E1 1 0 1 0 0 0 0 1E2 0 1 0 1 0 0 0 1E3 1 0 0 0 0 1 1 0…….

Remarque : les tableaux logiques permettent typiquement de coder des résultats d’enquête d’opinions. On dira que le tableau est mis sous forme disjonctive complète c à d que l’individu possède une et une seule modalité pour chaque caractère.

En cas d’enquête comportant des questions à réponse multiple il faut, pour obtenir un tableau disjonctif complet, faire de chaque modalité une variable a par entière possédant deux modalité OUI ou NON.

Ex : enquête de satisfaction client

Question : Quel plat préférez vous ?

Thieboudjen Mafé Attiéké Yassa

Tableau 

Thieboudjene Mafe Attieké Yassaoui non oui non oui non non oui

Diallo 1 0 1 0 1 0 0 1

Ainsi l’ensemble des réponses aux questions d’une enquête peut être toujours codé sous la forme d’un tableau logique disjonctif complet. (TLDC)

b) Insuffisance de la statistique descriptive élémentaire

La statique de manière générale a pour vocation de proposer des résumés de l’information. Ces résumés peuvent prendre une forme numérique (caractère de tendance centrale : moyenne médiane mode ou de dispersion : variance écart-type étendu), ou une forme graphique. La statistique descriptive élémentaire permet au plus d’étudier deux variable simultanément.

Remarque : jusqu'à trois variables on peut toujours obtenir une représentation graphique.

7

Page 8: ANALYSE DE DONNEES

Exemple :

Entreprise Salaire moyen mensuel Valeur ajouté CAE1 25 30 40? ? ? ?

On a E1 = (25 ; 30 ; 40)

Représentation

Question : y a-t-il alors une possibilité de visualisation en la résument, l’image multidimensionnelle du nuage des points.

Remarque : à partir de trois variables il faut des méthodes plus élaborés d’où l’utilité de s’appuyer sur l’analyse des données.

c) Motivation et place de l’ADM dans l’analyse statistique

L’analyse statistique se décompose en quatre étapes.

Niveau 1 : Sondage collecte enquêteNiveau 2 : Mise en forme des données Tableaux, graphiquesNiveau 3 : ADM Analyse des données interprétationNiveau 4 : Modélisation Econométrie

d) Points commun aux différentes méthodes d’analyse des données

*Objectifs : Ces méthodes visent à réduire les données pour mieux dégager les relations essentielles entre les éléments du tableau tout en minimisant la perte d’information entrainée par la réduction opérée.

Les méthodes d’analyse des données cherchent essentiellement à décrire et non à construire des modèles explicites et décisionnelles.

*Fondements mathématiques et statistiques : Les tableaux de données constituent des matrices et l’analyse des données fait appel largement aux calculs matriciel.

*Recours à l’outil informatiques : ces méthodes n’ont pu être mise en œuvre que grâce à l’ordinateur car elles conduisent à des manipulations de nombres irréalisables manuellement. Elles se sont donc considérablement développées dans les entreprises parallèlement au développement des micro-ordinateurs.

*méthodes présentées et l’approche retenue :

Parmi les nombreuses méthodes actuellement utilisées nous en présenterons 3 qui font parti des méthodes factorielles.

8

Page 9: ANALYSE DE DONNEES

- L’analyse en composante principale

- L’analyse factorielle des correspondances (AFC)

- Analyse discriminante (AD)

e) Principes de l’analyse factorielle des données :

Principe 1 : il s’intéresse à l’étude de K variables observé sur n individus

X1 ………………. X j …………….. X k

I 1 X11 X j

1 X k1

I i X1i X j

i X ki

I n X1n X j

n X kn

Xij = valeur prise par la variable j pour l’individu i

Convention :

- Les individus sont en générales représenté en ligne,

- les variables sont en colonne

Ainsi chaque individu Ii (x1i  ;…………..x j

i  ; …….xki ) peut être considéré comme un vecteur de

Rk. Chaque variable Xj (x j1;……… x j

i  ;………x jn ) correspond a un vecteur de Rn

On dispose alors :

- d’un nuage d’individus dans l’espace Rk

- d’un nuage de variables dans l’espace Rn

Règles : De préférence on commence d’abord par étudier le nuage des variables afin de détecter les éventuelles liaisons.

En pratique on fournit à l’ordinateur le tableau à analyser en lui indiquant la méthode factorielle à utiliser. Il se charge alors de reproduire la photographie. L’analyste n’a donc aucun calcul affaire par contre il lui faut beaucoup de rigueur et de finesse pour interpréter les photos fourni par l’ordinateur.

Principe 2 : on pare du nuage des individus et on essaye de faire des regroupements les moins arbitraires possible : la classification automatique.

9

Page 10: ANALYSE DE DONNEES

CHAP II : L’ANALYSE EN COMPOSANTES PRINCIPALE

L’ACP est une méthode de description des tableaux de mesures

a) Tableau de données brutes (Z)- Les individus sont représentés en ligne

- Les variables sont représentés en colonne

Considérons n individus étudiés à travers p variables.

Posons :

Zi j la valeur prise par la variable Zj pour l’individu i

Z1 Z j Zp

1 Z11 Z1

j Z1p

2 Z21 Z1

j Z2p

i Zi1 Zi

j Zip

n Zn1 Zn

j Znp

L’ACP cherche à décrire les relations entre les individus, entre les variables, et entre les individus et les variables.

b) Nuage des points individus

A chaque individu est associé en ligne la valeur des variables représentant les cordonnées de

l’individu i dans l’espace de dimension P. On pose pour l’individu i, Zi = (Zi1…Zi

j … Zip) dans

ce contexte, l’ACP s’intéresse plus particulièrement aux distances entre les individus.

Exemple :

Dans un espace de dimension deux, la distance euclidienne usuelle entre les points A (a ; a ‘) et B(b ; b’) est :

d = √(b-a)² + (b’-a’) ²

10 a b

a’

b’d

Page 11: ANALYSE DE DONNEES

En ACP les variables sont rarement de même nature (certaines sont exprimé en m3 d’autres en Kg d’autres en % etc.) et la distance ainsi mesuré n’aura pas grande signification.

Pour rendre les données homogènes, elles sont centrées et réduites (on obtient alors des

nombres sans unité). Ainsi Z ji sera remplacé par Y j = ( Zi

j –Z j) /(𝜎(Z j) avec Z j = moyenne de

la variable Z j et 𝜎(Z j) = écart-type de la variable Z j. Ainsi Y ij est une variable centrée réduite.

Le centrage est juste une technique alors que la réduction supprime l’influence des unités.

c) Nuage des p points variables

A chaque variable sont associés en colonne les n valeurs attribué aux individus.

On associe à chaque vecteur Z j les coordonnées centrées réduites.

y1j

y ij

ynj

Ici l’ACP s’intéresse plus particulièrement aux corrélations entre les variables. On sait que le coefficient de corrélation entre les variables Z j et Zkpeut être calculé avec les données initiales

ou avec les données centrées réduites(Y ). On a:

r (Z j , Zk) = cov (Z j , Zk )σ ( Z j ) σ ( Zk ) =

1n ∑

( zij−z j)( zi

k−zk )σ ( Z j ) σ ( Zk )

r (Z j , Zk) = 1n ∑ yi

j y ik

Posons : X ij =

yij

√n

r (Z j , Zk) = ∑i=1

n y ij

√n∗ y i

k

√n=∑

i

n

X ij X i

k

En réécrivant r (Z j , Zk) sous forme matricielle, on obtient :

X j= (x1

j

.

.

.xn

j) et X k= (

x1k

.

.

.xn

k) ∑i

n

X ij X i

k=X (n , i)j X (n , 1)

k

r (Z j , Zk) = corr. ( X j Xk )= tX j . X k = ∑ x ij x i

k

11

Y j = Avec Y ij =

Z ij−Z i

j

σ ( Z j )

Page 12: ANALYSE DE DONNEES

Remarque1 : si on note X la matrice des X j tous les coefficients de corrélation entre les variables prise deux à deux peuvent être obtenu en faisant le produit de la transposé de X par X. tX .X = Г

Résumé :

En ACP les données initiales Z sont :

- Centrées et réduites pour mieux apprécier les distance entres les individus.

- Divisé par √ n pour permettre le calcul de corrélation entre les variables

On a: Zij X i

j= Z i

j – Z j

σ Z j√n

Remarque1 : la division par √n ne modifie pas la forme du nuage des individus. Elle ne fait que modifier l’échelle.

Remarque 2:

Calculons σ (X j) =¿ Y j

√n) =

1

√nσ (Y j )

Et Y j est réduite σ (Y j ) = 1 σ 2 ( X j )= 1n

(1)

Calculons la variance de X j:

Comme X j est centrée var( x j ) = 1n

∑ ( x ij )2. (2 )

En rapprochant (1) et (2) on a : 1n

= 1n

∑ ( x ij )2 ∑ ( x i

j )2=1 ∀ j=1 ……… ρ

∑ ( x ij )2= . tX j X k.= ‖X j‖2

‖X j‖ = 1 on en déduit que ∀ j, X jse trouve sur la sphère (0,1).

Remarque 3: Distance entre 2 variables X k X k '

d2 ( Xk Xk ' ) = ∑ ( X ik−X i

k' )2

= ∑ ( X ik )2

+ ∑ ( X ik ' )2- 2 ∑ X i

k X ik '

= 1 + 1 – 2 ∑ X ik X i

k '

d2 ( Xk Xk ' )=¿ 2 [1−∑ X ik X i

k ' ]= 2[1−corr ( X ik , X i

k ') ]

Si corr ( X ik , X i

k ' ) 1 d2 ( Xk Xk ' ) 0

12

Page 13: ANALYSE DE DONNEES

Conclusion : La distance entre deux variables est d’autant plus petite que ses deux variables sont corrélées.

Remarque :

Malheureusement, l’ensemble des corrélations (des variables prises 2 à 2) se trouve dans l’espace de dimension n ; donc difficilement appréhendable.

II- Analyse des nuages de points individus  Cas d’un espace de dimension 2

Considérons l’exemple suivant où six (6) individus sont analysés avec deux (2) variables Z1et

Z2.

INDIVIDUS VAR Z1 VAR Z2

1 3 500

2 9 700

3 4 1400

4 13 1900

5 8 1700

6 11 1000

TOTAL 48 7200

ECRAT TYPE 3,55 g 509,22

MOYENNE 8 1200

13

Page 14: ANALYSE DE DONNEES

2 4 6 8 10 12 140

200

400

600

800

1000

1200

1400

1600

1800

2000

G

Series2

1) L’ACP centre les données du tableau, ce qui revient à prendre pour nouvelle origine le point G ( Z1 Z2) appelé centre de gravité ou point moyen de nuage. Ensuite, elle réduit et

les divise par√n.

Individus VAR X1 VAR X2

1 - 0.5735 - 0.5604

2 + 0.1147 - 0.4003

3 - 0.4508 + 0.1601

4 + 0.5735 + 0.5604

5 0 + 0.4003

6 + 0.3441 - 0.1601

TOTAL 0 0

Ecart-Type 1/V6 1/V6

∑ ( x ij )2 1 1

* Mesure de l’étalement : (inertie) :

14

Page 15: ANALYSE DE DONNEES

La somme des carrés des distances entre les points individus et le point moyen G est appelé l’inertie totale du nuage. Elle mesure la distance des points autour du centre de gravité du nuage.

2 60123456789

10

G

i

15

Gi = distance entre l’individu et le centre G

Inertie totale = ∑ ( Gi )2

Page 16: ANALYSE DE DONNEES

On a :

- le carré de la distance de 1 à G (Gi )2.= (0,5735)2 + (0,5604 )2 = 0,64295

- Le carré de la distance de 2 à G = 0,17339 de 3 à G = 0,23612 de 4 à G = 0,64295 de 5 à G = 0,16024

de 6 à G = 0,14403

∑j=1

p

∑i

n

( X ij )2=∑

j=1

p

1=p

Remarque :

Lorsque l’ACP est normé, la somme des carrés de toute les données x ijest égale au nombre des

variables.

Ici, l’inertie totale est donc égale à 2.

2) L’intérêt de l’ACP est de faire apparaître l’axe principal d’allongement du nuage c’est- à- dire « l’axe passant par G sur lequel la distance entre les projections des points sur (D) sont maximales. On l’appelle l’axe factoriel N°1.

En rapprochant l’inertie de l’axe 1 à l’inertie total du nuage, on obtient le taux d’inertie N°1.

Exemple :

Si le taux de l’inertie N°1 est de 70%.

Interprétation :

1) En remplaçant les points initiaux par une projection sur l’axe 1, on passe d’un espace de dimension 2 à un espace de dimension 1 (l’axe 1) et restitue 70% de l’info initiale.

2) L’axe N°2, perpendiculaire à l’axe N°1 et passant par G, est appelé axe factoriel N°2. Son taux d’inertie est nécessairement plus faible.

Remarque1 : Le plan factoriel N°1 est le plan déterminé par les deux (2) premiers axes.

Le graphe proposé par l’ACP fait apparaitre uniquement les axes principaux d’arrangement du nuage de points. Ils seront utilisés comme axes de repère.

Remarque2 : les axes 1 et 2 ont été remplacé par les axes (axe1), (axe2) on les appelle composantes principales ou facteur.

Remarque 3 : les individus éloignés de l’individu moyen sont appelés individus originaux et permettent de donner une signification aux axes factorielles.

Remarque 4 : en dimension 3, deux points même éloignés peuvent avoir des points de projection très proche voir confondus sur le plan factorielle.

16

Page 17: ANALYSE DE DONNEES

Exemple 1 : deux points éloignés

Exemple 2 : deux points proches x1

x2

Deux points proches dans la réalité resteront proches par rapport à leurs points de projection.

Remarque : Pour réduire le risque d’interprétation le logiciel d’ACP propose pour chaque point individu des indicateurs de la qualité de sa représentation.

*Qualité de représentation d’un individu i sur le plan factoriel défini par les axes l et k

Axe l

Axe k

La qualité de la représentation de l’individu i sur l’axe k est mesurée par le rapport (c i

k

d)

2

La qualité de la représentation de l’individu i sur l’axe l est mesurée par le rapport (c i

l

d)

2

Ce rapport est d’autant plus proche de 1 que le point est bien représenté sur cet axe.

On note QLT (k, l) (i) = ( d 'd

) 2

On a en outre d’2 = (C ik) 2 + (C i

k . ip) 2 ou d’2 = (Cki) 2 + (Cl

i) 2

17

x1

x2

x ' 2 x ' 1

Les ponts x1 et x2 sont très éloignés dans la réalité, mais leurs projections sur le plan factoriel sont confondues.

x ' 2 x ' 1

i

d

Page 18: ANALYSE DE DONNEES

Soit alors QLT (k, l) (i) = ( Ci

k

d) 2 + (

Cik

d) 2 = cos ( i , k )+cos ( i ,l )❑

2❑2

On a: QLT (k, l) (i) = cos ( i , k )+cos ( i ,l )❑2

❑2

III - Analyse du nuage des variables

Considérons un exemple de dimension 3.

Ex : Trois individus sont étudiés à travers 4 variables

Variable 1 Variable 2 Variable 3 Variable 4Ind1 14 160 7 90Ind2 9 240 3 25Ind3 37 110 15 40Total 60 510 25 155Moyenne 20 170 8,333 51,667Ecart-Type 12,193 53 ,54 4,989 27,789

Chaque point variable est représenté dans un espace de dimension 3 (les trois individus)

ACP : après centrage, réduction et division par √ n on obtient :

X 1 X 2 X 3 X 4Ind1 -0,284 -0,108 0,154 +0,796Ind2 -0,521 +0,755 -0,617 -0,554Ind3 +0,805 -0,647 +0,772 -0,242Total 0 0 0 0Moyenne 0 0 0 0Ecart-Type 1/√ 3 1/√ 3 1/√ 3 1/√ 3

∑ (xij) ² 1 1 1 1

On est sur la sphère de rayon unité

Dans un espace de dimension 3 les points variables sont donc situés sur une sphère d’origine o et de rayon 1. On obtient la représentation des 4 points variables dans un espace de dimension 3.

18

Page 19: ANALYSE DE DONNEES

19

Page 20: ANALYSE DE DONNEES

Remarque :

- Deux points proches sur la sphère correspondent à deux variables fortement corrélés.

- Deux points quasiment opposés par rapport à G correspondent à deux variables fortement corrélés négativement.

- Deux ponts dans des directions quasiment orthogonales par rapport à G correspondent à deux variables faiblement corrélées.

Pour la représentation graphique du nuage des points variables sur le premier plan factoriel on projette les points sur les axes principaux.

Dans l’exemple précédent on obtient le tableau de corrélation. Le logiciel d’ACP fournit la matrice C de corrélation

X1 X2 X3 X4

X1 1

X2 0,883 1

X3 -0,986 -0,948 1

X4 -O133 -0,347 +0,032 1

On sait que var (X j)= 1n

Corr. (X i,X j) = cov ( x j x j )σ ( x j ) σ ( x j )

= 1

Le graphe montre que X1 et X3 sont fortement corrélé ce que montre le coefficient de corrélation linéaire.

Un coefficient de corrélation élevé entre la variable Xj et l’axe k indique que la variable contribue fortement à la définition de l’axe k : ce qui peut aider à donner une signification à cet axe. Le logiciel d’ACP peut éditer les coordonnées des points variables sur les axes factoriels c.-à-d. les coefficients de corrélation entre variables et les composantes principales.

R(V ik, X j ) = ∑V i

k X ij ≡coordonnees de X j dans labaseV k

Dans l’exemple précédent, on obtient :

Variables C1axe 1 C2axe 2X1 0,966 -0,258

X2 -0,975 -0,225

X3 0,915 -0,096

X 4 0,129 0,992

20

Page 21: ANALYSE DE DONNEES

Les variables X1, X2, X3, contribuent à la formation de l’axe 1

La variable X4 celle qui contribue à la création de l’axe2.

Définition : Le plan factoriel du nuage des individus est appelé plan direct.

Le plan factoriel du nuage des variables est appelé plan dual.

Remarque1 : les distances entre les projections des points variables sur le plan dual sont le reflet des corrélations entre les variables.

Remarques 2 : l’interprétation des graphs duaux (projections des points variables) doit se faire parallèlement à celle des graphs directs (projection des individus)

IV- interprétation d’une ACP

a) Démarche générale

Etape1 : On détermine le nombre d’axe que l’on désire conserver dans l’interprétation.

Etape2 : On interprète en termes de corrélation les positions des variables sur les plans factoriels. On précise éventuellement l’origine de ses corrélations en examinant les représentations factorielles des individus.

Etape3 : On cherche à donner une interprétation à chaque axe

Etape 4 : On commence s’il y a lieu à l’aide des éléments dégagés ci-dessus des photos des individus (par rapport l’individu moyen si cela a un sens)

Etape 5 : On examine le bi-plot (superposition du graph dual et du graph direct)

b) Etude détaillé

Etape1 : On classe par ordre décroissant de valeur propre les axes factoriels. Pour retenir le nombre d’axe on examine l’histogramme des valeurs propre en essayant de détecter le décrochage (il s’agit de pouvoir dire si les valeurs propres sont significativement différentes).

Remarque : il n’existe pas de règles propres pour la détermination des axes ; le tout dépend des objectifs de l’étude.

Étape 2 : On examine les graphs duaux en termes de corrélation

Etape3 : Interprétation des axes

L’interprétation des axes permet de trouver un sens au facteur correspondant

Remarque : Tout facteur n’est pas facilement interprétable

Etape4 : A défaut de toujours pouvoir illustrer un axe avec une ou plusieurs variables on peut chercher à la faire avec les individus. L’analyse des individus est celle de leur différence par rapport à celle de l’individu moyen. Par conséquent on doit impérativement procéder par des

21

Page 22: ANALYSE DE DONNEES

regroupements pour résumer ses différences en quelques grands traits. On cherche les points originaux, ceux qui sont isolés des autres. Il faut en suite les commenter, en général en priorité car ils peuvent avoir un impacte gênant sur la visualisation de disparité par rapport au reste des individus. (Remède : on peut les mettre en supplémentaire).

Etape5 : On examine simultanément les graphs discrets et duaux : le bi-plot.

Remarque1 : la qualité de la représentation des individus est sous forme d’un tableau d’indicateur QLT en fonction des cosinus carrés.

Remarque2 : Les corrélations entre les variables sont données dans les matrices de corrélation.

Etude de cas concret

Enoncé : les données réels considères ici proviennent de la revue de l’UNICEF « la situation des enfants dans le monde en 1999 »

Les 10 individus seront les 10 pays les plus peuplés de l’Afrique de l’ouest et du centre.

Ces pays sont étudié selon :

- Le PIB par habitant, exprimé en dollar US de l’année 1999 (PNB)

- Espérance de vie à la naissance en années 1997

Pays PNB E V 97BF 230 46Cameroun 610 56CI 660 51Ghana 360 58Guinée 560 46Mali 240 48Niger 200 48Nigeria 240 52Sénégal 570 51Tchad 160 48

L’ACP donne :

Num IND MOY E-TYPE MIN MAX1 PNB 383 195,11 160 6602 EV 97 50,4 4,061 46 58

22

Page 23: ANALYSE DE DONNEES

Matrice de corrélation Valeurs propres

Coordonnées des variables sur les axes

Coordonnées Corel var facteurs

Identif libellé 1 2 1 2

PNB 0.82 0.58 0.82 0.82

EV97 0.82 -0.58 0.82 -0.58

CERCLE DE CORELLATION

23

EV97

PNB

Val. propre

Pourcent P. cumulée

1 1.33 66.53 66.53

2 0.67 33.45 100

PNB EV97

PNB 1 0.33

EV97 0.33 1

Page 24: ANALYSE DE DONNEES

Graphe dual

Graphe direct et dual

Question : Donner une interprétation de ce tableau de données.

Correction

Méthode adaptée : ACP car on a un tableau de mesures :

PNB moyenne = 383

Ces deux variables ne sont exprimé de même nature. On utilisera donc 1 ACP normée

EV99 moyenne = 50,4

Le graph indique que l’axe 1 représente 66.5% de l’inertie total

Cela signifie que cet axe restitue environ 67% de l’information.

L’axe 2 traduit 33% de l’information

24

G

EV97

PNB

G

.TCHAD

.NIGER

.MALI

.GHANA EV97

.CAMEROUN

.SENEGAL

.COTE D’Ivoire

PNB

.GUINEE

Nigeria.

Page 25: ANALYSE DE DONNEES

La matrice des corrélations montre que corr. (EV99 ; PNB) = 0,33 qui n’est pas négligeable

La lecture des coordonnées sur les axes donne :

PNB = 0,82 sur l’axe1

EV97 = 0 ,82 sur l’axe 1

Ces deux variables avec leur forte coordonnée participent à la formation de l’axe1,

PNB= 0,58

EV97= -0,58

De même les variables EV97 et PNB (fortes coordonnées) participent également à la formation de l’axe2.

Le cercle de corrélations montre que PNB et EV97 sont du même coté de l’axe 1 alors qu’elles s’opposent sur l’axe2.

On observe que sur la droite du graphique une corrélation entre EV97 et PNB

L’axe 1 oppose dynamisme économique et niveau de vie élevé à marasme économique et niveau de vie faible.

Interprétation des graphs individus et variables (bi-plot)

Nous constatons que les pays Mali Niger Burkina Cote d’ivoire sont bien représentés sur l’axe1 (voir indicateur) d’autre part le Ghana Nigeria Guinée expliquent l’axe 2.

- On obtient sur l’axe1 le groupe (Tchad Mali Niger Burkina) avec un PNB et une espérance de vie faible s’opposent au groupe (Cameroun CI Sénégal) ou ces deux indicateurs sont nettement meilleurs.

- Sur l’axe 2 à la faible espérance de vie et PNB s’opposent le Nigeria le Ghana pour lesquels EV97 est élevé et PNB est faible.

Remarque : Le Nigeria a une espérance de vie sup à celle du group CI Sénégal mais son PNB relativement faible le place éloigné de ces deux pays.

25

Page 26: ANALYSE DE DONNEES

CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES

L’analyse de la correspondance est destinée à extraire de l’information a partir des tableaux de contingence (tout tableau de nombre dont la somme des lignes est égale à la somme des colonnes).

Exemple : supposons qu’un établissement hospitalier est relevé pour 5 services de l’établissement les dépenses faites ou estimées sur les postes suivants :

- Acte en K, Acte en B, Acte en Z, Hôtellerie, Divers

Sur une période donnée, ses dépenses mesurées en franc sont exprimé dans le tableau suivant :

Actes K Actes B Actes Z Hôtellerie Divers Total Service1 60 39 42 54 12 207Service2 27 18 12 19 8 84Service3 135 110 120 160 103 628Service4 450 300 225 150 150 1500Service5 36 24 18 12 12 120Total 708 491 417 285 285 2539

Ce tableau de contingence étudie les dépenses reparti selon deux critères : service et poste.

Pour tenir compte du faite que la somme des lignes et la somme des colonnes a un sens on utilise une analyse spécifique : AFC

1) Tableau des profilsa) Choix de la distance La distance euclidienne

X= (x1…………..x p)

d2(x , y) = ∑ ( xi− y i )2

Y= (…y1…………y p)

Remarque :

x1 et x2 se ressemblent (les dépenses sont proches)

X4 et x5 différents (les dépenses sont éloignées)

La distance euclidienne transcrit les distances de mesure entre les services. Pour éliminer l’effet de masse lié aux ordres de grandeur l’AFC se propose de transformer les données. On calcule alors les tableaux des fréquences à partir du tableau des effectifs

26

Page 27: ANALYSE DE DONNEES

X1 .. X j ….. X p Total

y1 f 11 .. f 1 j ……. f 1p f 1

.. .. …….. …. …..y i f i 1 .. f ij …….. f ip f i .

.. .. ……..yn f n1 .. f nj ……. f np f n

Total f .1 .. f . j ……… f p f n .

On obtient :

Actes K Actes B Actes Z Hôtellerie Divers Total Service1 0,29 0,11 0,20 0,26 0,06 1Service2 0,32 0,21 0,14 0,23 0,10 1Service3 0,21 0,18 0,19 0,25 0,16 1Service4 0,30 0,20 0,15 0,25 0,10 1Service5 0,30 0,20 0,15 0,25 0,10 1Total 0,28 0,20 0,16 0,25 0,11 1

On observe que le service 4 et 5 ont le même profile de dépense 30% 20% 15% 25% et 10%

Remarque1 : On a utilisé la distance euclidienne entre les profils ligne pour réduire l’effet de masse.

d2 ( x i xk )=∑ ( f ij

f i .

−f kj

f k .)

2

Distance euclidienne sur les profils

Remarque 2 : Pour éliminer l’effet de masse on pondère chaque différence par un coefficient égale à l’inverse de la fréquence de la modalité colonne.

On obtient : d2 m ( x i xk)=∑ 1❑

f . j( f ij

f i .

−f kj

f k .)

2

Exemple : Enquête sur la clientèle de deux médecins

Le nombre de consultation sur un an, classé par catégorie socio professionnelle client en activité ou non (jeune chômeur, en retraite, sans profession).

Patients En activité Inactifs Total consultationMedecin1 1900 20 1920Medecin2 1910 10 1920Total 3810 30 3840

Montons que la distance euclidienne n’est pas satisfaisante.

27

Page 28: ANALYSE DE DONNEES

Profils ligne :

Patients En activité Inactifs Total consultation X1 1900

1920

201920

1

X2 19101920

10

1920

1

Total

On obtient la distance euclidienne entre les deux profils lignes.

d2 ( x i xk )=( 19001920

−19101920 )

2

+( 201920

− 101920 )

2

= 0,00522+0,0052

Remarque3 :

Pour la clientèle active, la différence n’est que de 10 clients pour une clientèle de l’ordre de 1900.

Pour la clientèle inactive, la différence de 10 clients représente la moitié de la clientèle du médecin1.

La distance euclidienne traite la différence de la même façon.

En réalité cette différence de 10 clients est d’autant plus significative que l’effectif de la colonne est faible.

Pour éliminer cet effet, on pondère chaque différence par un coefficient égale à l’inverse de la fréquence de la modalité colonne.

On obtient : d2 ( x1 x2 ) = d2 ( x i xk )=38403810 ( 1900

1920−1910

1920 )2

+ 38403810 ( 20

1920− 10

1920 )2

Cette nouvelle distance d p est appelé distance du khi 2 ( χ2) .

Cette distance renforce le poids des variables de masse faibles c.à.d. compense les différences de poids entre les variables.

Récapitulation des distances entre les services :

28

Distance euclidienne Distance euclidienne relative

Distance du khi2

Fait ressortir l’effet de masse Elimine l’effet de masseCompense la différence de poids entre les variables

Page 29: ANALYSE DE DONNEES

Remarque :

Lorsque deux caractères sont indépendants, les profils lignes sont tous identiques aux profils lignes moyens.

χcalculé2 = N ∑∑ ( f ij−f i . f . j )

2

f i . f . j

Le khi2 calculé sera comparé au khi2 lu sur la table de khi2

Règle :

si χcalculé2 ≤ χ lu

2 indépendance

si χcalculé2 >¿ χ lu

2 dépendance

Remarque : Du fait du rôle symétrique entre les lignes tout ce qui a été dit pour les profils lignes peut être transposé aux profils colonnes.

III- Analyse du nuage points – profils.

De la même manière que l’ACP s’intéresse aux points individus et aux points variables, l’AFC s’intéresse aux points profils colonnes pour en proposer des projections orthogonales sur les plans factoriels.

a) Nuage de ponts profils lignes

Chaque ligne est associée aux profils lignes i (f 1/ i …f j /i…f p/ i ) ce point est affecté du poidsf i.

Le centre de gravité du nuage est représenté par le point profils-lignes moyenGL.

Le centre de gravité est représenté par le point moyen Gl (f .1 …f . j ……f . p )

Règle : la distance entre deux points profils-ligne est d’autant plus faible qu’ils correspondent à des profils-lignes voisins.

Définition

1) L’inertie du point profils-ligne i est égale au produit du carré de sa distance au point GL

par son poids( f i). (GL−p )2 f i

2) L’inertie totale du nuage est égale à la somme des inerties de ce point.

b) Nuage des points profils-colonnes

On procède par une démarche analogue a celle utilisé pour les profils-lignes.

Exemple :

29

Page 30: ANALYSE DE DONNEES

Les 500 entreprises d’un pays X ont été reparties entre 4 régions R1= Nord, R2= Sud R3= Est R4= Ouest et 3 secteurs d’activités A1= primaire A2= secondaire A3= tertiaire

A1 A1 A3 TotalR1 10 20 40 70R2 60 30 30 120R3 20 60 30 110R4 70 30 100 200

Total 160 140 200 500

Question : Calculer l’inertie totale du nuage des points profils-lignes.

Réponse :

Calculons l’inertie du pont profil-ligne R1

- Le poids de la ligne R1= 70

500

- Profil-ligne R1 : (17  ;

27  ;

47 )

- Profil-ligne Moyen : (1650 ;

1450 ;

2050)

Distance entre R1 et GL : 5016

( 17−16

50 )2

+ 5014 ( 2

7−14

50 )2

+ 5020 ( 4

7−20

50 )2

=0,17165

Inertie entre point profils-ligne R1 et GL = 0 ,17165 x 7

50 = 0,02403

De même on calcule l’inertie des lignes.

Profils-ligne Inertie correspondante R1 0,02403R2 0,03857R3 0,07740R4 0,03527

Total 0,17527

Pour mesurer la dépendance entre deux caractères, chaque profil-ligne conduit à sa dépendance par son inertie

Remarque 1: le nuage de point profil-ligne et celui des points profils- colonne ont exactement la même inertie.

Remarque2 : L’inertie totale est donnée par la formule I=χ 2n

ou n désigne l’effectif total du

tableau de contingence.

30

Page 31: ANALYSE DE DONNEES

Cela signifie que l’inertie totale est un indicateur du nuage et permet donc de mesurer la liaison entre les deux variables.

c) Représentation graphique et interprétation

Le logiciel AFC propose :

- Une représentation graphique des points profils-lignes (graph direct)

- Une représentation graphique des points profils-colonnes (plan factoriel dual)

- Une superposition de deux graphs précédents (graph du bi plot)

*Exemple de l’interprétation de l’exemple précédent.

1) Commentaire des profils moyens (lignes et colonnes)

A1 A2 A3R1R2R3R4GL 16/50 14/50 20/50

L’histogramme associé est :

2050

1650

1450

La répartition par activité de l’ensemble des entreprises du pays X est relativement équilibrée avec une légère prédominance du secteur A3.

2) Examen séparé du graph direct et du graph dual

L’interprétation de chaque axe se fait par rapport au point qui l’attire.

L’interprétation des distances entre point se fait en termes de similitude ou en termes de profil.

Remarque : Pour minimiser le risque d’erreur d’interprétation, on peut utiliser les indicateurs fournis par le logiciel d’AFC.

 cos2: Pour la qualité de la représentation.

Q¿ : Qualité de la représentation sur le plan factoriel.

31

A1 A2 A3

Page 32: ANALYSE DE DONNEES

3) Examen simultané des deux graphs (direct et dual)

La superposition des deux graphs s’interprète en termes d’attirance ou de répulsion entre les modalités des deux variables.

Exemple : du bi-plot

La proximité de A2 et R3 d’une part, A1 et R2 d’autre part confirme :

Le poids important du secteur secondaire (A2) dans la région Est (R3) celui du secteur primaire (A1) dans la région Sud (R2).

Les activités du secteur A3 sont généralement reparties entre les régions du Nord (R1) et la région Ouest (R4).

IV- Interprétation d’un cas concret d’AFC

Enoncé : une enquête a été effectué par des étudiants au près de 1392 personnes âgés de 5 ans et plus. Les 2 questions suivantes ont été posées :

- Quel est votre âge (en années révolues) ?

- A quelle activité de loisir vous adonnez vous le plus volontaire ?

LoisirAge lecture cuisine Télévision Restau Spectacle Sport Autres Total

5-14 10 53 132 1 22 31 7 25615-24 16 81 64 5 35 62 12 27528-39 19 76 37 10 64 41 38 28540-59 17 50 76 35 73 29 42 322

32

Axe2 (36%)

Axe1 (64%). .

A1 R2

. R1

A3 .

R4 .

.R3

.A2

Page 33: ANALYSE DE DONNEES

60 ans + 23 25 103 22 57 5 15 254Total 85 285 412 73 251 172 114 1392

Les réponses ont été traité par un logiciel d’AFC et les résultats suivants on été obtenu :

Indicateur d’écart à l’indépendance du khi2 = 274,73

Axe factoriel Taux d’inertie % Taux d’inertie cumulé

1 48,5 48,52 45,1 93,63 3,3 96,94 31 100

Nuage des points profils-lignes et profils-colonnes (bi-plot)

60ans et +

40-59 ans

5-14 ans

48,5

25-39 ans

Axe1 Tableau profils-lignes Axe2Tranche d’âge Contribution Tranche d’âge Contribution 5-14 56,2% 60 ans + 39,7%25-39 20,5% 15- 24 ans 37,8%40-59 20,1%

33

Restaurant

Télévision •

• lecture

• spectacle

• Autres

Cinéma •

15-24 ans

• Sport

Page 34: ANALYSE DE DONNEES

Axe1 Tableau profils-colonnes Axe2Loisir Contribution Loisir Contribution Television 49,4% Sport 32,7%Autres 22,4% Cinéma 27,3%Spectacle 15,1% Restau 18,8%Restau 12,4%

Le logiciel fournit un QLT élevé (vision d’1) pour tous les points à l’exception du point « lecture » sur le plan dual (QLT = 0,27)

Commentaire sur les profils-moyens

Profils ligne moyen : la distribution marginale des loisirs tout âge confondu fait apparaitre une nette prédominance de la télévision mais également la place importante du cinéma et du spectacle.

Profils-colonne moyen : Les effectifs par classe d’âge sont assez voisins mais cela tient à l’amplitude variable des classes.

Qualité globale de représentation et qualité de représentions de chaque point.

L’indicateur d’écart à l’indépendance de khi2 est 274,73 traduit s’il existe une dépendance significative entre l’âge et loisir.

Tous les points variables sont bien représentés (QLT proche de 1) à l’exception de lecture (QLT = 0,27). Lecture étant très proche de l’origine il est préférable de ne pas l’interpréter dans ce plan factoriel.

*Graph direct.

L’axe1 oppose les enfants (5-14 ans) aux adultes actifs (25-39 ans) et (40-59 ans).

L’axe2 oppose les adolescents (15-24) aux personnes âgés (60 ans et +).

Les profils de loisir sont tres différent suivant les tranches d’âge (forte dispersion des points). On peut faire apparaitre une évolution tres net en cheminant (chronologiquement) d’un point à un autre.

*Graph dual :

L’importance de la modalité autres peut éventuellement nécessiter de faire une AFC à l’intérieur de cette modalité.

L’axe1 oppose télévision au spectacle et restau c.à.d. une activité peu couteuse à des activités couteuses.

L’axe 2 oppose le sport et le cinéma au restau. Il est cependant un peu plus difficile de donner un sens à cet axe. On peut par contre les relier aux activités de tranche d’âge.

*Graph superposé

34

Page 35: ANALYSE DE DONNEES

Cette superposition permet d’éclairer l’évolution de la structure de loisir par tranche d’âge, si la télévision a la faveur des classe de 5 à 14 ans la majeur partie des amateurs de sport et de cinéma se situent parmi les 15-24 ans (attirance) par ailleurs peu friand de restau (répulsion).

Il ne faut pas croire hâtivement que les 14-24 ans sont plus sportifs que cinéphiles. Un bref retour au tableau de contingence montre qu’il n’en ait rien pour les 15-24 ans (81pour cinéma et 62 pour le sport). Cela s’explique par les attractions de tous les points de l’autre nuage. Les 25-39 ans s’emblent être attiré plus particulièrement par le cinéma et le spectacle. Les 45 59 constituent l’essentielle des personne fréquentant les sales de spectacle mais subissent également les attractions combinées d’autres activités comme autres et restaurant. Les 60 ans et plus, tout en fréquentant les restaurants, rejoignent les enfants devant la télévision.

35

Page 36: ANALYSE DE DONNEES

CHAP IV : ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)

L’ACM est un cas particulier de l’AFC.

I- Principe de l’analyse des correspondances multiples

On sait que l’ACP permet de traiter l’étude d’une population sur laquelle plusieurs variables quantitatives sont définies.

- L’AFC permet de traiter l’observation simultanée de deux variables qualitatives ou quantitative découpé en classe.

- L’ACM s’intéresse aux cas ou la population considérée est composé de plusieurs variables qualitatives (généralisation de l’AFC).

Soit Ω une population de ɳ individus sur laquelle on définit P variables (X1 ,… X j… X p )

Si X j(pour J=1……p) est une variable qualitative alors on supposera que ses m j modalité

sont notés : x j 1. … x jmj

- Si X j est une variable quantitative on supposera que les valeurs observées sont reparties m j classe ainsi pour tout individu ɷ appartenant à Ω et pour toute variable X j on a :

X(ɷ) Є {x j1 …, x jmj . } avec comme codage x jh={10 avec X j (ω)=x jh{10- 1 si la modalité est observé

- 0 si non

Variable X1 Xj ….. Xp ∑ .Modalité x11

…. x1 h….

n1m1 x j 1… x jh

… x jmj X p 1… X ph X pmp

Indiv 1 nn11 nn11 nn11 n1 j11 n1 jh n1 jnj n1 p 1 n1 php n1 pnpP

Indiv i nn11 nn11 nn11P

Indiv n nn11 nn11 nn11P

∑ .

Exemple : supposons qu’il ait 3 variables dans une étude.

X1 = sexe ; X2 = taille et X3 = âge avec les modalités suivantes :

36

Page 37: ANALYSE DE DONNEES

X1=¿ {x11=Hx12=F X2=¿ X3={ x31=[ 0 ;18 ]

x32=¿18 ;30¿

¿¿ x33=¿30 ;50]¿ x34=¿50;+∞ ¿

Et on considère 4 individus de la population ayant les caractéristiques suivantes :

Individu 1 : homme de 1,67m et 27 ans

Individu 2 : femme de 1,59m et 31 ans

Individu 3 : femme de 1,72m et 29 ans

Individu 4 : homme de 1,83m et 45 ans

Var Sexe Taille Age Total Indiv H F x21 x22 x23 x24 x25 x26 x27 x28 x31 x32 x33 x34

Indiv 1 1 1 1 3Indiv 2 1 1 1 3Indiv 3 1 1 1 3Indiv 4 1 1 1 3

Total 4 4 4

Remarque : Toutes les techniques développées pour l’AFC seront donc applicables à l’ACM et l’analyse, celle de l’AFC.

II – Caractéristiques des indicateurs de l’AFCM

Comme dans le cas de l’AFC le graph les individus et des modalités peuvent être superposé et les proximités (non fortuites) peuvent être sujettes à interprétation.

L’analyse peut être rendu délicate par :

a) Les analyses des correspondances multiples qui portent en générale sur des populations par fois impotente.

b) Le nombre de colonnes qui correspond au nombre de modalité toute variables confondu est lui-même assez élevé (on peut avoir plus de modalités que d’individus) ce qui conduit a un nombre important d’axe factorielles porteur de part relativement faible de l’inertie total. En fait l’AFCM présente un intérêt plus dans les révélations de proximité entre modalités entre individus ou encore entre individus et modalités plutôt que sur l’interprétation des axes qui est en général impossible.

1) Distance entre deux individus

Considérons deux individus ωiet ωk

V 1 V j V p ∑ .

37

Page 38: ANALYSE DE DONNEES

Modalité 1

ωi nij 1 nijh nijnj

ωk nkj1 nkjh nkjnj

∑ . n. j 1 n. jh n. jmj np

La distance du khi-deux entre les deux individus ωiet ωk est :

d2=∑j=1

f

∑h=1

m j 1n . jh

( nijh

P−

nkjh

P )2

La distance est nulle pour deux individus qui possèdent les mêmes modalités (n ijh=nkjh ) pour

chacune des variables.

Cette distance est max pour deux individus qui ne possèdent jamais la même modalité observée c.à.d. nijh=1 et nkjh=0 ou inversement.

dmax2 = 1

P2∑j=1

f

∑h=1

m j 1n. jh

Conclusion : la distance du khi-deux est donc comprise entre 0 etdmax2 .

Exemple : considérons une étude qui s’intéresse et 3 variables : Sexe, état de santé et âge.

On obtient les informations concernant 4 individus sur 100 personnes enquêtées :

Sexe Etat de Santé Age ∑ . H F Mauvai

s Moyen bon <30 31à 50 51 et +

1 1 0 1 0 0 0 1 0 32 1 0 0 1 0 0 1 0 33 1 0 0 0 1 1 0 0 34 0 1 0 0 1 1 0 0 3

∑ . 48 52 1 1 98 30 45 25 300

Distance entre les individus 1 et 2

d2 (ω1 ω2)¿= 148 ( 1

3−1

3 )2

−11 ( 1

3−0

3 )2

+ 152 ( 0

3−0

3 )2

+ 11 ( 0

3−1

3 )2

+ 198 ( 0

3−0

3 )2

+ 130 ( 0

3−0

3 )2

+ 145 ( 1

3−1

3 )2

+ 125 ( 0

3−0

3 )2

= 19+ 1

9

38

Page 39: ANALYSE DE DONNEES

d2 (ω1 ω2)=29

2) Distance entre deux modalitésd ' unemême variableV j

V j

Modalité

x ji … x jk x jh x jmj

1

i. nij 1 nijk nijnj

ωk

∑ . 1 1

d2 ( x jk , x jh )=∑i=1

n1p ( nijh

n. jk

−nijh

n. jh)

2

On a nécessairement :

1= nijh ≠ nijk=0ou 0=nijh ≠ nijk=1ou encore nijh=nijk=0

d2 ( x jk , x jh)= 1p∑i=1

n

( 1n . jh

)2

+ 1p∑i=1

n

( 1n . jk

)2

¿ 1p

∑V ∈Ωjh

.

( 1n . jh )

2

+ 1p

∑ω∈Ωjk

.

( 1n . jk )

2

Avec Ω jh={ωi∈Ω /1=nijh et nijk=0}

Ω jk={ωi∈Ω /1=nijk et nijh=0}

d2 ( x jk , x jh)= 1p ( 1

n . jh )2

∑ωi∈Ωjh

1+ 1p ( 1

n . jk )2

∑ωi∈Ωjk

1

Pd2 ( x jk , x jh)= 1n jh

+ 1n jk

La distance maximale dmax2 est égale au cas où n. jh=n . jk=1 c.à.d. dmax

2 = 2p

3) Distance entre deux modalités de 2 variables différentes.

V j V t ∑ . x jh x tk

39

Page 40: ANALYSE DE DONNEES

d2 ( x jh x tk )=∑i=1

n1p ( nijh

n . jh

−nitk

n.tk)

2

4) Liaison entre variables

L’AFCM est une méthode permettant la mise en évidence de liaisons éventuelles entre des variables. Ces liaisons ne sont pas nécessairement linéaire ni fonctionnelle. ( les variables peuvent ne pas être quantitatives).

Exemple : considérons 20 individus et 4 variables.

Sexe Age Dépense de santé Dépense loisir H F < 20 20-50 >50 <2000 2000-

3000>3000 <2000 2000

- 5000

>5000

abcd

11

11

11

11

111

11

11

Le résultat d’un AFCM fournit par un logiciel d’analyse de données propose les résultats suivants :

40

Page 41: ANALYSE DE DONNEES

41

Page 42: ANALYSE DE DONNEES

H = homme

F = femme

A1 : âge < 20

A2: 20 ≤ age≤ 50

A3: age>50

S1: dépense santé <2000

S2: 2000 ≤ d é pense sant é ≤ 3000

S3 : Dépense santé > 3000

L1 : Dépense loisir < 2000

L2 : 2000≤ dépense loisir ≤5000

L3 : Dépense loisir > 5000

Question ; Analyser ce résultat

Correction :

Ce graph permet de mettre en évidence quelques points important :

- Les dépenses de santé les plus importantes sont le faite des classes d’âge extrêmes (A1 A3) en revanche la classe d’âge intermédiaire (A2) correspond au dépenses de santé les plus faibles.

- Les dépenses de loisir ne semblent pas être influencées par les classes d’âge.

- Les femmes ont des dépenses de loisir élevé alors que celles des hommes est relativement faibles.

42

Page 43: ANALYSE DE DONNEES

CHAP : ANALYSE DISCRIMINANTE AD

L’analyse discriminante (AD) cherche à décrire pour une population donnée les liaisons existant entre une variable qualitative et plusieurs variables quantitatives.

Elle permet également pour un individu de prévoir la modalité de la variable qualitative correspondant à des valeurs données des variables quantitatives.

I- Principe de l’analyse discriminante

Une population de grand N individu est observé sous l’angle :

- D’un caractère qualitatif à k modalités permettant de distinguer k groupe d’individus ;

- De p variables quantitatives

On cherche la combinaison linéaire de p variables quantitatives qui discrimine ou sépare au mieux le groupe c a d qui prennent des valeurs :

- Proche pour les individus du même groupe

- Eloigné pour des individus de deux groupes différents

Exemple : considérons une population qui sera observer sous l’angle de deux variables quantitatives x1 et x2 et d’un caractère qualitatif à 3 modalités : 3groupes sont donc définis.

Chaque individu est sur le graphique par le n* du groupe auquel il appartient.

43

Page 44: ANALYSE DE DONNEES

Remarque1 : L’axe (ox1) sépare mal les projections : groupe 2 et 3

Remarque 2 : Lorsque le caractère qualitatif retenu ou défini k groupe d’individus, on peut définir (k-1) fonctions discriminantes que le logiciel d’AD détermine dans l’ordre décroissant de leur pouvoir discriminant.

Remarque3 : si l’ACP décrit la population concerné, l’AD se propose de séparer des groupes d’individus définis à priori (classification supervisée)

II- Analyse discriminante à deux groupes : Application aux fonctions scores

Lorsque le caractère qualitatif définit seulement deux groupes d’individus, la fonction discriminante peut être obtenue en faisant une régression multiple :

- Y = variable qualitative sera transformé en une variable quantitative

y i=1 sil' individu i possedela modalité

y i=0 si l' individui ne possede pas la modalité

x1 , x2 …….x p les P variables explicatives mesuré sur chaque individu.L’équation de régression linéaire est obtenue par la méthode des moindres carrés (fonction discriminante recherché). Son pouvoir discriminant est mesuré par le coefficient de corrélation multiple.

R2= variableexplicativevariable totale

=1− variable residuvariable total

Exemple on considère 10 entreprises sur lesquelles on a une étude portant sur :

- 4 variables quantitatives : x1 , x2 , x3 , x4

Elles correspondent aux valeurs prise par 4 ratios calculés à partir des documents de synthèse de l’exercice N.

- Un variable qualitative a été transformé en une variable quantitative Y prenant la valeur 1 pour les entreprises saines et la valeur 0 pour les entreprise défaillantes.

- Les résultats de l’enquête sont les suivantes :

x i1 x i

2 x i3 x i

4 y i.

1 0,34 0,37 0,31 0,50 12 0,21 0,27 0,26 0,68 03 0,08 0,42 0,54 0,41 14 0,18 0,33 0,38 0,52 05 0,12 0,39 0,42 0,53 06 0,44 0,26 0,33 0,25 17 0,32 0,44 0,42 0,31 18 0,07 0,09 0,47 0,82 0

44

Page 45: ANALYSE DE DONNEES

9 0,31 0,21 0,59 0,65 110 0,11 0,54 0,35 0,71 0

- La fonction discriminante appelé ici fonction score est construite pas à pas : les variables explicatives sont introduites successivement en commençant par celle qui est la plus fortement corrélé avec la variable expliqué.

- Une entreprise sera présumé défaillante si son score est inferieur à 0,5 (Remarque : y=0,5)

- Si le coefficient de corrélation de seuil de y avec chacune des variables explicative est connues, on commencera la sélection avec celles ayant la plus forte corrélation.

r ( y , x1 )=0,657 ;r ( y , x2 )=0,065 ;r ( y , x3 )=0,316 ;r ( y , x4 )=0,664

Fonction score à une variable ; x4

y=a. x4+b On obtient y=−1,132 x4+1,540 avec r=−0,664

Pour évaluer le nombre d’entreprises mal classées de l’échantillon on compare y i avec les

valeurs réelles y i . On pose :

S : Si l’entreprise est présumée saine

D : si l’entreprise est présumée défaillante

Entreprise 1 2 3 4 5 6 7 8 9 10Situation réelle Yi

1 0 1 0 0 1 1 0 1 0S D S D D S S D S D

Situation présumée y i

0,57 0,23 0,75 0,53 0,52 1,06 0,94 -0,04 0,28 0,17

S D S S S S S D D D

On obtient trois entreprises sur dix mal classées par la fonction score à une variable. On introduit une variable explicative supplémentaire pour améliorer le coefficient de corrélation et diminuer le nombre d’entreprise mal classés.

On obtient :

y=a1 x1+a4 x4+b Ce qui donne y i=−1,299 x4+1,422 x1+0,86 avec|R|=0,762>|r|=0,664

On obtient :

Entreprise 1 2 3 4 5 6 7 8 9 10Situation reelle Yi

1 0 1 0 0 1 1 0 1 0S D S D D S S D S D

Situation présumée y i

0,98 0,28 0,46 044 034 1,16 0,91 -0,11 0,46 ,009

S D D D D S S D D D

On obtient ici deux entreprises sur dix sont mal classé par la fonction score à 2 variables.

45

Page 46: ANALYSE DE DONNEES

Fonction score à trois variables : x4 x1 x3

y=a4 x4+a1 x1+a3 x3+b

On obtient : y i=−1,101 x4+2,172 x1+2,909 x3−0,609

On obtient :

Entreprise 1 2 3 4 5 6 7 8 9 10Situation réelle Yi

1 0 1 0 0 1 1 0 1 0S D S D D S S D S D

Situation présumée y i

092 -0,14 0,68 0,32 0,29 1,03 0,97 0,007 1,07 -0,13

S D S D D S S D S D

Ici aucune entreprise n’est mal classé et le pouvoir discriminant de cette fonction score à

trois variables peut être jugé satisfaisant |R3|=0,93 il n’est donc pas nécessaire d’introduire

la variablex2.

Remarque : L’AD n’est pas seulement une méthode descriptive, mais elle est également décisionnelle.

46

Page 47: ANALYSE DE DONNEES

Prénoms Sexe Taille âge Poids QuestionMarie Féminin 1,65 28 57 ouiAwa Féminin 1,67 32 62 NSPAbdou Masculin 1,71 33 73 nonMichel Masculin 1,73 40 69 nonJeanne Féminin 1,63 38 65 ouiMoussa Masculin 1,8 27 81 ouiAllou Masculin 1,77 29 76 nonPenda Féminin 1,64 42 56 nonRobert Masculin 1,83 36 75 NSPPaul Masculin 1,79 35 79 NSP

NSP : ne se prononce pas

47