traitementdedonnées multivariables (applicationaux...

62
BRGM traitement de données multivariables (application aux sciences de la terre) approche théorique tome 1 - version 1 .0 Ph. Rolet J.-J. Seguin* 'Département Eau février 1 986 86 DT 005 ISA BUREAU DE RECHERCHES GEOLOGIQUES ET MINIERES DIRECTION DE LA TECHNOLOGIE Département Informatique Scientifique Appliquée B.P. 6009 - 45060 ORLÉANS CEDEX 2 - Tél.: (33) 38.64.34.34

Transcript of traitementdedonnées multivariables (applicationaux...

BRGM

traitement de données multivariables

(application aux sciences de la terre)

approche théorique

tome 1 - version 1 .0

Ph. Rolet

J.-J. Seguin*

'Département Eau

février 1 986

86 DT 005 ISA

BUREAU DE RECHERCHES GEOLOGIQUES ET MINIERES

DIRECTION DE LA TECHNOLOGIE

Département Informatique Scientifique Appliquée

B.P. 6009 - 45060 ORLÉANS CEDEX 2 - Tél.: (33) 38.64.34.34

SOMMAIRE

PAGES

INTRODUCTIOÍÍ I

1 - ANALYSE GENERALE 3

1.1 - Ajustement dans RP ^

1.2 - Relation entre les ajustements dans RP et R" 5

1.3 - Qualité de la représentation 6

1.4 - Contributions 7

1.5 - Reconstitution des données de départ 8

2 - ANALYSE EN COMPOSANTES PRINCIPALES 9

2.1 - Principe 9

2.2 - Analyse dans l'espace RP des individus 9

2.2.1 - Les choix fondamentaux 9

2.2.2 - La matrice de corrélation 9

2.3.3 - Les axes principaux 10

2.2.4 - Pourcentage d'inertie expliquée 10

2.2.5 - Représentation ^aphique 10

2.2.6 - Individus supplémentaires 11

2.3 - Analyse dans l'espace R^^ des variables 12

2.4 - Interprétation des résultats 14

3 - ANALYSE DES CORRESPONDANCES 16

3.1 - Généralités 16

3.2 - Champ d'application 16

3.2.1 - Homogénéïté 17

3.2.2 - Exhaustivité 17

3.2.3 - Notations 18

3.2.4 - Choix des distances 19

3.2.5 - Critère d'ajustement 20

3.2.6 - Calcul des axes factoriels et des facteurs 21

PAGES

3.2.7 - Relations de transition 22

3.2.8 - Eléments supplémentaires 23

3.2.9 - Calcul des contributions absolues et relatives 24

4 - ANALYSE FACTORIELLE DISCRIMINANTE 27

4.1 - Principe 27

4.2 - Définitions 27

4.3 - Variance totale, interclasse et intraclasse 28

4.4 - Expression analytique des matrices de covariance 30

4.5 - Recherche des axes discriminants 31

4.6 - Coordonnées des variables sur les axes discriminants 32

4.7 - Projections des individus sur les axes discriminants 32

4.8 - Affectation d'un individu 33

5 - REGRESSION LINEAIRE MULTIDIMENSIONNELLE 34

5.1 - Généralités ' 34

5.2 - Cas d'une seule variable explicative 34

5.3 - Cas de P-1 variables explicatives 35

5.3.1 - Principe 35

5.3.2 - Représentation graphique 35

5.3.3 - Résultats 36

5.4 - Qualité de la récession 39

5.4.1 - T de Student 39

5.4.2 - F de Fisher 40

5.4.3 - Résidus 40

5.5 - Régression bornée 40

6 - CLASSIFICATION ASCENDANTE fflERARCfflQUE 42

6.1 - Principe 42

6.2 - Notations et algorithme de base 42

6.3 - Critère d'agrégation de la variance maximum 44

6.4 - Exemple d'application 45

6.5 - Méthode des voisins réciproques 48

'AGES

7 - NUEES DYNAMIQUES 50

7.1 -But 50

7.2 - Principe 50

7.3 - Conseils d'utilisation 50

7.4 - Exemple 51

INTRODUCTION

A - METHODES STATISTIQUES MULTIVARIABLES DE DESCRIPTION

Les méthodes statistiques descriptives multivariables permettent de décrire à

la fois variables et individus.

Si n est le nombre d'individus étudiés et p le nombre de variables mesurées,

tout individu i peut être représenté par un point de l'espace RP des variables et

toute variable j peut être représentée par un point de l'espace R" des individus.

Mais l'observation directe dans rP ou R" étant impossible, il s'agit de

rechercher un sous-espace de R" : Rm et un sous-espace de RP : R*^ tels que m et q

soient aussi petits que possible et que la situation initiale des points dans R" ou

dans RP ne soit pas trop déformée.

Le principe de ces méthodes est relativement simple puisqu'il consiste à

rechercher les axes d'inertie du système des points-individus dans rP et ceux du

système de points-variables dans R", et à définir les sous-espaces R^ et Rm à l'aide

seulement des q et des m premiers axes d'inertie. On démontre que les projections

dans ces sous-espaces subissent une déformation minimale par rapport aux systèmes

de points initiaux pour m et q fixés.

La recherche des axes d'inertie d'un système de points pesants est décrite dans

les chapitre d'Analyse générale (1.1) ; elle nécessite le choix d'une métrique et d'une

pondération. On est donc conduit à trois méthodes fondamentales.

- L'analyse en composantes principales : la métrique choisie est la métrique

euclidienne définie par la matrice diagonale Di/o2 et chacun des individus a même

poids.

- L'analyse des correspondances : la métrique choisie est la métrique du chi2

et chacun des individus a pour poids la somme des valeurs de sa ligne rapportée au

total du tableau de base.

- L'analyse factorielie discriminante : la métrique choisie est la métrique

euclidienne définie par la matrice T"l, T étant la matrice de covariance totale et

chaque individu a pour poids l'effectif de la classe à laquelle il appartient rapporté

à l'effectif total.

B - METHODES STATISTIQUES MULTIVARLÀBLES DE PREVISION

Ces méthodes permettent de calculer les coefficients des modèles destinés à

relier les variations d'une variable isolée aux variations d'un groupe d'autres

variables. Ces coefficients sont calculés sur un ensemble d'individus de référence et

permettent de faire des prévisions sur une population d'individus plus vaste dans la

mesure où l'ensemble des individus choisis pour caler le modèle est représentatif de

la population globale.

La régression permet de calculer les coefficients d'un modèle linéaire reliant

une variable (ou une fonction de cette variable) dite variable à expliquer, à d'autres

variables (ou fonctions de variables) dites variables explicatives.

C - METHODES STATISTIQUES MULTIVARIABLES DE CLASSIFICATION

Par classification, on entend usuellement recherche objective de classes dans

un ensemble d'individus avec sortie d'une hiérarchie ou non. Grâce à des progrès

relativement récents dus à J. Juan, la classification ascendante hiérarchique est

devenue concurrentielle du point de vue coût machine par rapport à d'autres

méthodes. Cette méthode paraît enfin d'un emploi moins restrictif que les outils

non hiérarchiques, en ce sens qu'elles ne supposent aucune hypothèse a priori sur la

structure de l'ensemble initial des individus.

La méthode de classification ascendante hiérarchique implantée actuellement

au BRGM utilise la notion de voisinages réciproques et de célibataires ee qui

permet un gain important de taille mémoire et de temps de calcul.

L'algorithme des nuées dynamiques du à Diday peut rendre des services quand

on a quelques informations sur la structure des individus étudiés notamment le

nombre naturel de classes du nuage.

1 - ANALYSE GENERALE

On désigne par X un tableau de valeurs numériques ayant n lignes et p

colonnes. On recherche en fait une technique de réduction s'appliquant de façon

systématique à divers types de tableaux et conduisant à une reconstitution rapide

mais approximative du tableau de départ. Pour exposer cette technique de

réduction, on se place successivement dans les espaces vectoriels RP et R".

1.1 - AJUSTEMENT DANS RP

Chacune des lignes du tableau X peut être considérée comme un vecteur ou

encore un point de RP. L'ensemble du tableau constitue alors un nuage de n points.

Si ce nuage était contenu dans un sous-espace vectoriel à q dimensions de RP et si q

était notablement inférieur à p, le problème d'approximation serait résolu.

On commence par chercher un sous-espace vectoriel à une dimension c'est-à-

dire une droite passant par l'origine, qui réalise le meilleur ajustement possible du

nuage de points.

Espace R^

Espace RP

Soit u un vecteur unitaire. On désigne également par u la matrice colonne

associée et par u' sa transposée. On exprime que u est unitaire par la relation

u'u = 1.

La projection OHi d'un vecteur OMj sur le sous-espace à une dimension porté

par u n'est autre que le produit scalaire OMj par u, somme des produits terme à

terme des composantes de OMi et de u.

Chacune des n lignes du tableau X est un vecteur-individu de RP. Or le produit

matriciel Xu est la matrice-colonne à n éléments, dont chaque terme est le produit

scalaire d'une ligne de X par u.

Ainsi, les n composantes de la matrice-colonne Xu repèrent sur u les n

projections OHi des n points du nuage.

Parmi les critères d'ajustement d'un sous-espace à un nuage de n points, celui

que l'on retient, et qui conduit aux calculs analytiques les plus simples est le critère

classique des MOINDRES CARRES. Il consiste à rendre minimale la somme des

carrés des écarts :

: = 1

OÙ, en vertu du théorème de Pythagore, il s'agit de rendre maximale la quantité

- OH 7^ qui s'écrit en notation matricielle

V 0H- = [Xa)'Xu = u'X'Xu

X'X étant égal à la matrice de corrélation pour des données centrées et réduites.

Pour trouver u, on est donc conduit à chercher le maximum de la forme quadratique

u'X'Xu, sous la contrainte u'u = 1.

Soit Ul le vecteur qui réalise ce maximum.

Le sous-espace à deux dimensions s'ajustant au mieux au nuage contient le

sous- espace engendré par ui-

On peut donc chercher U2, second vecteur de base de ce sous-espace,

ORTHOGONAL à ui, et rendant maximal u'2X'Xu2.

De façon analogue, on recherche le meilleur sous-espace au sens des moindres

carrés à q dimensions.

Plusieurs démonstrations existent pour obtenir la solution, notamment l'usage

des multiplicateurs de Lagrange.

1.2 - RELATION ENTRE LES AJUSTEMENTS DANS RP et R"

On indique sans démonstration l'énoncé suivant : le vecteur unitaire ui qui

caractérise le sous-espace à une dimension s'ajustant au mieux au nuage des n

points- individus dans rP, est LE VECTEUR PROPRE de X'X correspondant à la

plus grande valeur propre \\.

Plus généralement, le sous-espace à q dimensions qui s'ajuste au mieux au

nuage dans RP est engendré par les q premiers vecteurs propres de la matrice

symétrique X'X correspondant aux q plus grandes valeurs propres.

On se place maintenant dans l'espace Rn, où le tableau X peut être représenté

par un nuage de p points variables, dont les n coordonnées figurent dans les colonnes

de X.

La recherche d'un vecteur unitaire v (puis d'un sous-espace à q dimensions)

s'ajustant au mieux au nuage de R" conduit à rendre maximale la somme des carrés

des p projections sur v, qui sont les p composantes du vecteur X'v.

On maximise la quantité v'XX'v avec la contrainte v'v = 1.

Comme précédemment, on est amené à retenir les q vecteurs propres de XX'

correspondant aux q plus grandes valeurs propres. On note vx le vecteur propre de

XX' correspondant à la valeur propre Pq

Dans RP, on avait la relation X'Xui = Xi ui [1]

Dans RII, on a maintenant XX'vi = pivj [2]

Multiplions les deux membres de [1] à gauche par X :

(XX') Xui = Ai(Xui)

On voit qu'à tout vecteur propre ui de X'X relatif à une valeur propre Àj non

nulle, correspond un vecteur propre Xui de XX', relatif à la même valeur propre Ai

avec Al < pi.

De même, en multipliant les deux membres de [2] à gauche par X', on voit de

même que X'vi est vecteur propre de X'X relativement à la valeur propre pi, d'où la

relation pi ¿ Xy ce qui prouve finalement que Ai = y^.

On verrait de la même façon que toutes les valeurs propres non nulles des

deux matrices X'X et XX' sont égales.

Une simple transformation linéaire, associée à la matrice X de départ, permet

d'obtenir les directions propres XUq pour norme VAq et le vecteur unitaire Vx

correspondant à la même valeur propre Aq est donnée par la relation (pour Aq ^ 0).

1X ua [3]

° VFa

aème vecteur propre dans Rn

De façon symétrique :

1u = ^^ X ' v

Q VA °a

1.3 - QUALITE DE LA REPRESENTATION

Les points du nuage des individus sont repérés par leurs coordonnées cïq sur

chacun des axes :

Sur l'axe a

p

c =x.u= ^ X. uIQ ; Q ^-^ LJ ¡a

J = 1

Ces coordonnées permettent de tracer le graphique des projections sur les

différents plans principaux.

Pour rendre compte de l'écart d'un point M au plan ou plus généralement à

l'hyperplan associé à q axes, on considère l'angle 6 de OM avec l'hyperplan. Pour ce

faire, on utilise les cos2 des angles 9q entre OM et chaque axe, fournis par le

programme pour chaque individu en notant que :

Cos2 e = Cos2 BqI + Cos2 602 + ... -^ Cos2 Gaq

Pour la visualisation du nuage, en résumé, il suffit de parcourir la liste des

cos2 totaux (portant sur l'angle de OM avec l'hyperplan des axes retenus pour

l'analyse) pour découvrir les points qui sont mal représentés ou exclus de l'analyse.

En revanche parmi les points remarquables d'un graphique, on choisit ceux de fort

cosinus comme individus typiques servant à donner une signification aux parties du

plan.

/i/ I

/

Cia ^a

1.4 - CONTRIBUTIONS

La contribution des points à l'inertie absorbée par axe, calculée pour chaque

individu précise la manière dont ie critère d'inertie s'est appliqué aux données.

On rappelle que l'inertie absorbée par le aème axe est, compte tenu du peu de

poids associé : pj :

A = V p A ÁEdí-Ip c i\ i^ pi l IQ \

¡ = 1

La contribution de l'individu i à cette inertie est le rapport : contre

contrd, a) = c~ /AEp - 1 '° °

¡

La connaissance des contributions permet de s'interroger sur la stabilité des

axes principaux. Toutefois l'intérêt de ce calcul est limité dans le cas usuel de poids

égaux, puisque la position des points sur le graphique suffit à déterminer leurs

contributions, par le carré de la distance à l'origine.

1.5 - RECONSTITUTION DES DONNEES DE DEPART

On désigne toujours par Uq le aeme vecteur propre de norme 1 de la matrice

X'X correspondant à la valeur propre X^ ; Vq le a^me vecteur propre de norme 1 de

XX'.

La relation [3] s'écrit : X Uq = VAq Vq

Multiplions à droite les deux membres de cette relation par u'^et sommons sur

l'ensemble des axes extraits :

'^ u u' = ^ VI V u'. a G ^ Q 0 a

a = 1 Q = 1

Les vecteurs Uq étant orthogonaux, on obtient :

p

X = ^ VTu u [5]~ aaa

Q = 1

qui apparaît comme une form.ule de reconstitution du tableau X, à partir des .\a et

des vecteurs Uq et Vq associés.

2 - ANALYSE EN COMPOSANTES PRINCIPALES

2.1 - PRINCIPE

Suivant la démarche présentée au chapitre précédent, il s'agit de visualiser la

structure des données par projection sur les axes principaux des nuages des individus

dans RP, et par projection sur ies composantes principales de l'ensemble des

vecteurs "variables" dans Rn.

Cette méthode s'applique à un tableau de mesures quantitatives effectuées sur

des individus. La seule hypothèse préalable est que l'une au moins des dimensions du

tableau soit formée d'unités ayant un caractère répétitif, l'autre pouvant être

éventuellement plus hétérogène. Dans les exemples cités, les lignes ont ce

caractère répétitif : on les désigne sous le nom d'individus, les colonnes étant

désignées sous le nom de variables.

On réalise tout d'abord l'analyse dans l'espace des individus et on en déduit les

résultats correspondants dans l'espace des variables.

2.2 - ANALYSE DANS L'ESPACE RP DES INDIVIDUS

2.2.1 - Les choix fondamentaux

Les données initiales sont centrées par la moyenne et réduites par l'écart-type

ce qui permet d'homégénéïser les données. La métrique utilisée est la métrique

euclidienne.

Chaque individu est doté d'un poids identique égal à 1/n, n étant égal au

nombre d'individus traités.

2.2.2 - La matrice de corrélation

Les choix fondamentaux précédents induisent, par le calcul des distances

entre individus, une matrice de corrélation qu'on peut présenter aussi sous la forme

d'une matrice d'inertie.

10

2.2.3 - Les axes principaux

Ce sont les axes d'inertie du nuage, ils constituent un système de p axes

orthogonaux deux à deux.

Ils sont présentés par ordre décroissant de l'inertie absorbée Ak. Un plan

principal, plus généralement un sous-espace défini par plusieurs axes principaux,

absorbe la somme des inerties correspondantes. La somme des Ak (k variant de 1 à

p), inertie totale du nuage, est la somme des variances des p variables (c'est-à- dire

égale p dans le cas de l'ACP normée).

2.2.4 - Le pourcentage d'inertie expliquée

C'est le rapport de l'inertie absorbée à l'inertie totale. 11 s'agit d'une mesure

globale de la qualité de reproduction de la structure du nuage. C'est donc à partir

des premiers axes que se mène l'étude. Le nombre d'axes factoriels "utiles" ne peut

pas être déterminé à l'avance : en effet la disposition des points peut s'avérer

significative malgré un pourcentage d'inertie modeste ; inversement il est fréquent

de voir le premier axe absorber un fort pourcentage pour un trivial "effet taille"

(opposant des individus pauvres en tout à des individus riches en tout).

2.2.5 - Représentation graphique

Le Icième axe principal est défini par les composantes : (ui^... ujk up)<)

d'un vecteur unitaire uk par rapport au système de référence, c'est-à-dire dans la

base des p vecteurs ej (G...Ü10...0) eux-mêmes unitaires.

Les termes u]]ç, cosinus directeurs

de l'axe principal avec les ej

sont aussi les projections des ej sur l'axe.

1 1

On peut situer un plan principal par rapport au système de référence, en

représentant à l'intérieur d'un cercle de rayon 1 les projections hj des vecteurs ej.

4 axe K'

*. axe K

Les points du nuage des individus sont repérés par leurs coordonnées cii< sur

chacun des axes :

Sur l'axe k

p

c, = X. . u, = ^ X u ..ik 1 k ij jk

J = 1

Ces coordonnées permettent de tracer les

graphiques des projections des individus

(OM : cf. exemple ci-contre) sur les différents

plans principaux.

M

4- ---^^H

C:ik

2.2.6 - Individus supplémentaires

Ces individus sont placés dans l'espace RP sans les faire intervenir dans le

calcul de l'inertie. Ils n'ont donc aucune influence sur l'orientation des axes

principaux, mais seront repérés par rapport à eux et pourront être projetés sur les

graphiques étudiés.

12

Cette démarche est adoptée pour prendre en compte une situation précise où

l'on a : d'une part un ensemble d'individus représentant une population de référence

ou un phénomène bien défini et soumis à l'analyse en composantes principales,

d'autre part des individus d'origines diverses que l'on veut seulement situer par

rapport à l'ensemble précédent.

2.3 - ANALYSE DANS L'ESPACE Rn DES VARIABLES

A chaque individu correspond par projection sur l'axe k une coordonnée ou

composante cjk. Les n termes ainsi obtenus constituent une colonne que l'on peut

adjoindre au tableau X des données et considérer comme une nouvelle variable de

moyenne nulle et de variance Ak, nommée la kième composante principale.

Représentons l'une de ces composantes principales dans l'espace Rn par un vecteur

c|< qui fait partie du sous-ensemble engendré par les variables initiales puisqu'il en

est une combinaison linéaire :

p

c, > u . Xk jk J

J = 1

On montre que :

- la variance de la composante k est égale à la valeur propre Ak,

- les p composantes principales constituant un système d'axes orthogonaux, la

projection de xj sur c^ est Uíj^vARdonc le coefficient de corrélation entre une

composante principale k et une variable j (c'est-à-dire le cosinus de l'angle de

ck et de xJ) parfois désigné sous le terme de "saturation" est : pj|^ = ujj^vÀK.

- ces vecteurs c\^ s'identifient aux axes qui, au sens du critère d'inertie,

ajustent au mieux le faisceau des vecteurs-variables en absorbant

respectivement les inerties Ak.

La concordance des descriptions des variables et des individus repose sur les

relations de transition entre les vecteurs unitaires uk et vk (= ck/VAK).

1 1u., = , y u ...x.. et u ., = , > w.,^..ik -^/Y^ > jk IJ jk VA n ' y

K j=\ K 1=1

ni

V., X

qui font se correspondre chaque axe principal dans RP et chaque composante

principale dans RP pour la même inertie Ar.

Les relations entre variables peuvent être visualisées par projection des

vecteurs xj sur les plans engendrés par les composantes principales.

* R

Les vecteurs xj ont leur extrémité sur la sphère de rayon unité et pour

coordonnées les corrélations ojk- La longeur de leur projection est égale au cosinus

de leur angle avec le plan.

Le graphique se présente sous la forme d'un cercle des "corrélations".

14

2.4 - INTERPRETATION DES RESULTATS

U est commode de représenter les figures obtenues dans chacun des deux

espaces sur un même graphique, à condition de respecter certaines règles

d'interprétation qui découlent directement des considérations théoriques

précédentes.

, Ind 4 ,lnd 8

t Focteur 2

Ind7

/

//

Var 1

/

/

/

////

/

//

Var 2

/

^.Ind 2

\ Facteur 1\

Ind 5 \Var 3

\

Ind 6

\

Ind 3

\

\\

\Var 4

La figure montre un exemple d'édition de résultats pour 4 variables et 8

individus.

On constate que les individus se répartissent de façon équilibrée autour de

l'origine, qui est leur centre de gn'avité. Par contre, les variables peuvent très bien

être situées toutes d'un même côté de l'un des axes car l'analyse du nuage des

points- variables dans Rn se fait à partir de l'origine.

15

On rappelle que le cosinus de l'angle sous lequel on voit deux points-variables

dans Rn n'est autre que le coefficient de corrélation entre ces deux variables. Selon

la qualité de l'ajustement, cette propriété sera plus ou moins bien conservée en

projection.

Si les proximités s'interprètent en termes de similitude de comportement, il

faut bien se garder d'interpréter la distance séparant un point variable d'un point-

individu car les deux points ne font pas partie d'un même nuage dans un même

espace.

Cependant, il est permis de comparer les positions respectives de deux

individus vis-à-vis de l'ensemble des variables, ou de deux variables vis-à-vis de

l'ensemble des individus. En effet les axes pointillés de la figure ci-dessus ne sont

autres, à une dilatation près, que les projections des axes de RP sur le plan des deux

premiers facteurs, plan qui s'ajuste au mieux dans cet espace au nuage des n points

individus.

3 - ANALYSE DES CORRESPONDANCES

3.1 - GENERALITES

Depuis les travaux de J.P. Benzecri, on utilise surtout les propriétés

algébriques et géométriques de l'outil descriptif que constitue l'analyse des

correspondances. Cette méthode n'est pas un simple cas particulier de l'analyse en

composantes principales, bien que l'on puisse se ramener à cette technique en

faisant des changements de variables appropriés (à condition de traiter chaque

espace séparément). On peut la représenter comme un cas particulier de l'analyse

discriminante. On peut enfin montrer qu'il s'agit de la recherche directe de la

meilleure représentation simultanée de deux ensembles constituant les lignes et les

colonnes d'un tableau de données.

L'analyse des correspondances a un domaine d'application différent de

l'analyse en composantes principales. Alors que l'on réserve cette dernière aux

tableaux de mesures éventuellement hétérogènes, l'analyse des correspondances

s'applique par excellence aux tableaux de contingence, aux tableaux disjonctifs et

fournit, par extension, des descriptions satisfaisantes de certains tableaux de

codages discontinus.

En pratique, cette exigence conduit à distinguer plusieurs familles de

variables, certaines d'entre elles jouent un rôle actif dans la construction des

typologies, les autres n'intervenant que comme des variables illustratives.

Une position privilégiée d'une variable ne participant pas à l'analyse a toujours

un caractère de preuve : n'ayant pas contribué à construire un axe, on peut

interpréter avec d'autant plus d'assurance son éventuelle corrélation avec l'axe.

Des variables illustratives formant un groupe homogène peuvent devenir les

variables actives d'une nouvelle analyse, où les anciennes variables actives peuvent

devenir illustratives, ce qui permet parfois de compléter utilement l'interprétation.

3.2 - CHAMP D'APPLICATION

Le recueil de données soumis à l'analyse doit posséder certaines qualités :

homogénéité et exhaustivité.

17

3.2.1 - Homogénéité

L'homogénéité est habituellement comprise comme une homogénéïté de

texture du tableau analysé : le codage doit permettre une certaine comparaison

entre lignes ou entre colonnes ; on ne doit pas mélanger des quantités exprimées en

ppm ou en mètre.

L'homogénéité de texture peut en général être atteinte par des

transformations analytiques ou des codages appropriés. Ainsi, l'analyse en

composantes principales normées permet de traiter des mesures hétérogènes grâce

à l'opération consistant à centrer et réduire les variables initiales.

Le codage disjonctif permet à l'analyse des correspondances de traiter

simultanément des variables nominales (n° de la coupure BRGM) et des variables

continues (teneurs) préalablement divisées en classes.

Mais l'homogénéïté de texture n'est pas en général suffisante. Il est important,

pour la clarté de l'interprétation, que les matériaux analysés simultanément aient

également une certaine homogénéïté de substance ou de contenu. Il s'agit de ne

retenir dans la masse hétérogène des faits que ceux qui se rapportent à un seul

point de vue. Cette condition supplémentaire permet souvent de clarifier et de

rendre plus aisées les interprétations. En pratique cette exigence conduit à

distinguer plusieurs familles de variables, certaines d'entre elles jouant un rôle actif

dans l'analyse, les autres n'intervenant que comme variables illustratives.

3.2.2 - Exhaustivité

Le critère d'exhaustivité stipule que toutes les situations ou tous les aspects

d'un phénomène soient représentés. L'exhaustivité concerne aussi bien les variables

que les individus ; elle est davantage une recommandation qu'une exigence absolue :

il faut s'assurer que le recueil de données n'est pas artificiellement tronqué, ni

incomplet.

En pratique, une condition nécessaire d'exhaustivité du recueil est qu'il soit

vaste, ce qui permet d'espérer des résultats stables. De plus c'est dans ce cas que

les visualisations s'avèrent indispensables.

18

3.2.3 - Notations

Le tableau de données est une matrice k d'ordre (n, p) n étant le nombre total

d'individus et p le nombre total de variables ou de modalités.

Ce ne sont pas les effectifs bruts qui nous intéressent, mais ce que l'on appelle

les profils des variables, c'est-à-dire les proportions de chacune des variables dans

cet individu si on se place dans RP. On peut raisonner de la même façon dans Rn et

définir ainsi les profils des individus.

On désigne par :

p

k . ^ y ki. ^- ij

l'effectif total de l'individu i ;

par k y k.y

i = 1

l'effectif total de la variable j ;

par

l'effectif total i x j.

On note les fréquences relatives de la façon suivante

k

'J k

p k.

'' - A ' - ^

.J . y ki = 1

On raisonne à partir de maintenant en termes de fréquences relatives.

19

3.2.4 - Choix des distances

Le fait d'avoir choisi des profils (qui sont des fréquences conditionnelles) pour

construire les nuages de points, et le souci d'observer une certaine invariance des

résultats, conduit à adopter une distance autre que la distance euclidienne usuelle :

la distance du CHi2.

La distance entre les deux individus i et i' est donnée par la formule :

.T, f, ^ n- A. '

De façon symétrique, la distance entre deux variables j et j' s'écrit :

1 / ^u 4j- wdyy= _ ^ w f

Ces distances ne diffèrent en fait de la métrique euclidienne usuelle que par

la pondération de chaque carré par les inverses des fréquences correspondant à

chaque terme.

Cette distance vérifie la propriété d'équivalence distributionnelle, qui

s'exprime de la façon suivante :

1) si l'on agrège deux variables ayant des profils identiques, alors les distances

entre individus sont inchangées,

2) si l'on agrège deux individus ayant des profils identiques, alors les distances

entre variables sont inchangées.

Cette propriété est importante, car elle garantit une certaine invariance des

résultats vis à vis de la nomenclature choisie par la construction des classes.

20

Cette propriété d'invariance peut être décrite par un exemple

U

Si A et B ont des profils identiques, C obtenu par agrégation de A et B possède

aussi un profil identique :

b.i = kaj i l,n

Ci = (1 + k) ai = k' ai i l,n

D'un point de vue strictement technique, il est logique que deux points

confondus dans un espace puissent être considérés comme un seul point

correspondant aux effectifs des deux classes réunies.

Ainsi on ne perd pas d'information en agrégeant certaines classes, et l'on n'en

gagne pas en subdivisant indéfiniment des classes homogènes.

3.2.5 - Choix du critère d'ajustement

Dans la construction des nuages de RP et de Rn, le choix des profils comme

coordonnées donne à tous les individus et toutes les variables la même importance.

Pour le calcul de l'ajustement, il est naturel de munir chaque point d'une

masse proportionnelle à la fréquence, afin de ne pas privilégier les classes

d'effectifs faibles, et respecter par conséquent la répartition réelle de la

population. Cette masse intervient lors du calcul des coordonnées du centre de

gravité ainsi que dans le critère d'ajustement. La quantité à rendre extrémale est

une somme de carrés pondérés par ces masses.

21

Le point i de RP a donc pour masse f j, alors que la masse du point j de Rn est

égale à f.;

3.2.6 - Calcul des axes factoriels et des facteurs

Pour faire le lien avec l'analyse exposée précédemment, il convient alors

d'utiliser des notations matricielles.

Par K, on désigne toujours la matrice de base d'ordre (n, p) et par F le tableau

des fréquences relatives :

F - - K (aveck ^ ^ k .)k '-J

Dp est la matrice diagonale de terme général : f.,-

Dn est la matrice diagonale de terme général : f j.

Il existe une symétrie complète entre les indices i et j. On limitera le

raisonnement à un espace, RP par exemple, les démonstrations dans l'autre espace

Rn s'en déduisant par permutation des indices i et j (c'est-à-dire transposition de F,

et substitution des matrices Dp et Dn).

On veut représenter graphiquement les proximités entre profils. On se place,

dans les deux espaces, aux centres de gravité des nuages.

Cependant, et c'est là une des particularités de l'analyse des correspondances,

il est équivalent de procéder à l'analyse par rapport à l'origine ou par rapport aux

centres de gravité.

On se place dans RP pour calculer les facteurs : dans cet espace, les n points

sont les n lignes D"!^^ F. Soit u un vecteur unitaire pour la métrique de RP donc tel

que u' Dp-1 u = 1.

Le vecteur des n projections sur l'axe u s'écrit :

Dn"l F Dp-l u = V

22

La quantité à maximiser est la somme des carrés pondérés :

v'Dnv

avec la contrainte u'Dp~l u = 1

On sait que u est vecteur propre de :

S = F' Dn-1 F Dp-1

correspondant à la plus grande valeur propre A :

S u = A u

Le terme général sjj' de S s'écrit :

'-' f -fS = y '^ '-^

: = 1 ': A'

Le vecteur u est le premier axe factoriel.

Le vecteur y = Dp"l u est appelé le premier facteur.

Le même vecteur y est vecteur propre de la matrice :

A = Dp-1 F' D-ln F

De façon plus générale, si Ua est le vecteur propre de S correspondant à la

valeur propre Xa, ua est le a-eme axe factoriel ; ya = Dp-1 ua est le a-eme facteur et

les projections des n points sur l'axe ua sont les composantes de Dn"l F Ya .

3.2.7 - Relations de transition

Elles découlent de ce qui précède et s'écrivent :

y f..

ipai

1 "^ /

v^i 4

1 " f-

^°j Vx^ ^°i = \ J

23

Ainsi, au coefficient l/VÂâ près, les points représentatifs d'un nuage sont sur

un axe les barycentres des points représentatifs de l'autre.

3.2.8 - Eléments supplémentaires

Il n'est pas nécessaire ici de distinguer variables et individus supplémentaires,

puisque lignes et colonnes jouent des rôles analogues.

Le tableau K peut être complété par Ps colonnes et ns lignes.

Rs

K K +

K +

Il s'agit encore de situer les profils des Pg nouveaux points par rapport aux P

points analysés dans Rn. Soit K''"ij la i-ème coordonnée de la jème colonne

supplémentaire. Le profil de cet élément est le vecteur dont la ième composante

vaut :

K^. ik""- avec K^:U -J -J

i = 1

La formule de transition permet de projeter le point j sur l'axe a

1 "

1 = 1

24

Pour une ligne supplémentaire i, on aurait de façon analogue :

J = 1

A l'instar des éléments analysés, les éléments supplémentaires se calculent

comme des pseudo-barycentres.

3.2.9 - Calcul des contributions absolues et relatives

Pour l'interprétation des axes, il est utile de calculer deux séries de

coefficients pour chaque facteur, s'appliquant aussi bien aux lignes qu'aux colonnes

du tableau analysé :

- Les contributions absolues qui exhibent la part prise par une variable dans

l'inertie (ou variance) expliquée par un facteur : cette part est calculée par rapport

à l'ensemble des variables.

- Les contributions relatives qui exhibent la part de la dispersion d'une

variable expliquée par un facteur.

a) Contributions absolues

Le quotient :

Q T aj' .J

A= f . \J;'^ . = ca if)

'.J r aj a^

représente la contribution absolue de l'élément j à l'axe factoriel a.

On note que

p

^ ca^ (/ = 1

.; = 1

On définirait de la même façon la contribution d'un élément i de RP à l'axe

factoriel a :

caAi) = A ^2

ai

25

avec maintenant

n

y ca (i) - 1

i = 1

b) Contributions relatives

Dans Rn, le carré de la distance de la variable j au centre de gravité vaut

yij,G)" ^ /.,

- V -L,J¿

,ri /. f,iy -f )

Le carré de la projection de la variable j sur l'axe a vaut

On note que

d'(j,G) = (vAT pajTa a '

V w2dy,G) = d~(j,G)

Centre de Ggravité

point j

axe a

d^if,G)COS CO = = cr (f)

d^{j,G)

CTa (j) représente la part qui revient au facteur a dans l'explication de la

variance de la variable j. On l'appelle contribution relative du facteur a à l'élément

26

On note que

Y cr^íj)= 1

Remarque :

Dans le cas de l'analyse en composantes principales, les deux notions de

contributions absolues et relatives coïncident, à de légères modifications près, avec

celles de coordonnées des points-variables.

27

4 - ANALYSE FACTORIELLE DISCRIMINANTE

4.1 - PRINCIPE

- On peut considérer l'analyse factorlelle discriminante, au même titre que les

autres types d'analyse de données, comme un outil descriptif : il s'agit de

déterminer dans quelle mesure les variables permettant de discriminer entre les

classes regroupant une partition des individus et définies a priori, de représenter les

individus de chaque classe dans un espace de faible dimension.

Un tel espace donne une vision simplifiée et déformée du nuage des individus ;

il est tel que la séparation entre les classes apparaissent le plus nettement

(variance interclasse maximale) et que chaque classe soit la plus homogène possible

(variance intraclasse minimale).

On peut aussi considérer l'analyse factorlelle discriminante comme un outil de

classement : il est en effet possible d'affecter un individu inconnu (affecté à aucune

classe) à la classe dont il est le plus proche, au sens de la métrique euclidienne. Ce

principe permet de remettre en question les classes initiales en réalisant une

nouvelle affectation de chacun des individus : par le décompte de ceux qui restent

stables, on peut déterminer un pourcentage d'individus bien classés et vérifier la

qualité du découpage initial.

4.2 - DEFINITIONS

Les données sont quantitatives et partitionnées en classes :

- X est l'ensemble des n individus x, mesurés sur p variables, chacun de masse

mx = 1/n. X peut aussi être défini comme le nuage des points x appartenant à RP et

affectés des mêmes masses mx-

- X est divisé en k classes y, chacune d'effectif ny et de masse my = ny/n :

X X

- Y est l'ensemble des classes y : x y Y

Pour simplifier l'écriture des indices, on confond dans l'avenir la classe y et son

centre de gravité :

28

1 ^ 1 ^y ^ \m . x; X d y) = ^ X ; X- Ç J

Dans l'écriture précédente, les x sont des vecteurs, les mx des scalaires et y

situé dans le membre de gauche est donc un vecteur.

Le nuage Y est ainsi l'ensemble des points y affectés des masses my. Y est

aussi le nuage X regroupé par paquets correspondant aux différentes classes.

La réunion dans l'espace X des classes y conduit à l'espace Y.

UxV = Y

Ainsi, le centre de gravité x de X et le centre de gravité y de Y coïncident

r= y Vx= y \m .x-.x^X) 7 m -y'-y^^i "^^ g

4.3 - VARL\NCE TOTALE, INTER-CLASSE, INTRA-CLASSE

On rappelle que les notions de moyenne et de centre de gravité sont

équivalentes, l'une liée à la statistique et l'autre à la mécanique ; de la même

façon, variance et inertie sont deux notions équivalentes.

- On peut définir la variance de chacune des p variables pour le nuage X.

Cette variance représente l'inertie du nuage projeté sur l'axe de coordonnées

correspondant à la variable considérée.

29

- Soit une certaine direction fournie par un vecteur u dans RP, on définit la

variance de u pour X, comme étant l'inertie de la projection orthogonale du nuage X

sur u, RP étant muni de la métrique euclidienne usuelle.

Cette quantité est appellee variance totale de u et s'écrit

variance totale : T (u) = ^ \ m . u ix x)~ : x Ç: X)

De même

V9

.. . .o^ .,..^, - ^.^oo. . ^ v^.., , {m.uly y)- ; j Ç Y

\r^ 2Posant: Z (u) = ^ \m .u{x y) ;x

ua riance intra classe : Wiu) = / \Z(u.);y(iYi

Ces trois quantités sont les moments d'inertie de chacun des trois nuages X,

Y, y par rapport à leurs centres de gravité respectifs, le long de la direction u. La

quantité u (x - x) désigne le produit scalaire du vecteur u par le vecteur (x - x) et

u (x - x)2, le carré de ce scalaire.

30

4.4 - EXPRESSION ANALYTIQUE DES MATRICES DE COVARIANCE

On utilise les notations développées suivantes :

x- : jème composante de l'individu x

y. : jème composante du vecteur moyen de la classe y

g: : jème composante du vecteur moyen de l'ensemble des n individus

je [l,...,PJ

Dans tout ce qui suit, x et y désignent des vecteurs colonnes de RP.

Les termes généraux des matrices de covariance s'écrivent pour

letj 1,...,P

Matrice et covariante totale T

VÍ, = \ \ix - g.){x -g ):x^X)/nij ~- \ i ° i J ° j I

Matrice de covariance inter-classe B :

4j=l{i-^A-^?^j-s?-'y'^]

Matrice de covariante intra classe W

Vw..= > \{(x. - y.){x . - y ):x(i y) y ^ Yy [Il I J J J

Le théorème de Huyghens permet d'écrire l'égalité matricielle :

T = W + B

Les variances d'une direction s'expriment en fonction des matrices de

covariance : étant donnée une direction ou une forme linéaire fournie par un

vecteur u dans rP, les variances écrites précédemment peuvent s'exprimer en

fonction des matrices T, B, W.

31

T (u) = uTu'

B (u) = uBu'

W (u) = uWu'

D'après ce qui précède : uBu' + uWu' = uTu'

4.5 - RECHERCHE DES AXES FACTORIELS DISCRIMINANTS

On veut trouver l'axe factoriel ou la forme linéaire u qui discrimine au mieux

l'ensemble y des classes d'individus de x. La discrimination est d'autant plus

satisfaisante que les classes sont éloignées les unes des autres (variance inter classe

grande) et que les individus d'une même classe sont proches (variance intra classe

petite).

Ainsi le premier axe factoriel ui est l'élément de u qui maximise : uBu'/uWu'.

En appliquant le théorème de Huyghens, on démontre que : maximiser

uBu'/uTu' est équivalent à la condition précédente. D'où :

. Le premier axe factoriel discriminant ui est le vecteur propre de T-lB

correspondant à la plus grande valeur propre .\1.

. Les valeurs propres de T-lB sont toutes positives et inférieures à 1.

. Le deuxième axe factoriel discriminant U2 est le deuxième vecteur propre de

T-1B, orthogonal à ui et ainsi de suite.

Remarques

On appelle pouvoir discriminant de l'axe factoriel ou de la forme linéaire ui,

la quantité Ai ; plus Ai est proche de 1, meilleure est la discrimination pour cet axe.

On peut extraire au plus K - 1 axes discriminants de la matrice T-lB, où X est

partagé en K classes.

4.6 - COORDONNEES DES VARIABLES SUR LES AXES DISCRIMINANTS

On se place dans l'espace Rn. Dans chacun des plans discriminants, on peut

représenter les variables {x;.; j {1, ..., p}} à l'aide de leurs coordonnées sur les axes

factoriels : J = T.u; qui sont aussi les coefficients de corrélation entre les variables

j et x^. Par suite, les images des variables x^ dans le plan factoriel considéré sont

situées à l'intérieur du cercle de corrélation.

X .

X-

. Toute variable proche du bord du cercle de corrélation est significative : elle

est d'autant plus discriminante pour un axe que sa projection est élevée sur cet axe.

4.7 - FACTEURS DISCRIMINANTS OU PROJECTIONS DES INDIVIDUS SUR LES

AXES DISCRIMINANTS

Ces composantes de l'individu xi sur un axe discriminant (k) s'obtiennent en

effectuant le produit scalaire :

< Uk, Xj >

L'image d'un individu dans un plan factoriel est obtenue par l'intermédiaire des

projections sur les axes factoriels.

L'analyse du semi de points, plan par plan, permet de vérifier ia qualité du

découpage initial.

33

4.8 - AFFECTATION D'UN INDIVIDU A UNE CLASSE

Se plaçant dans le sous-espace vectoriel Rk - 1, on calcule la distance de

l'individu inconnu z aux centres de gravité des classes pour la métrique identité et

on l'affecte à la classe à distance minimale.

Distance : d (z, y) = (z - y)' I (z - y)

Affectation à yo telle que : d (z, yo) = Inf { d (z, y)}.

Il en résulte que tout individu inconnu est obligatoirement affecté à une classe

préexistante.

Remarque

On utilise ici la métrique identité par le fait que l'on travaille directement

dans le sous-espace Rk - 1 sur les projections des individus.

34

5 - REGRESSION LINEAIRE MULTIDIMENSIONNELLE

5.1 - GENERALITE

La régression linéaire permet de calculer les coefficients d'un modèle linéaire

reliant une variable à expliquer (ou une fonction de cette variable) à d'autres

variables explicatives (ou à des fonctions d'autres variables).

Les variables explicatives doivent vérifier un certain nombre de propriétés

dont la plus souhaitable est celle d'indépendance statistique. L'ajustement du

modèle se fait en fonction du critère des moindres carrés. Lorsque la propriété

d'indépendance des variables explicatives n'est pas satisfaite, l'utilisation de la

régression linéaire classique peut conduire à un modèle totalement inapplicable en

dehors de l'ensemble des individus sur lequel il a été calé. Cependant une variante

de la régression classique, dite "régression bornée" permet d'établir un modèle

stable en prévision au prix d'un certain biais, le plus souvent limité, sur les

estimations des coefficients du modèle.

5.2 - CAS D'UNE SEULE VARL\BLE EXPLICATIVE

On a recueilli dans un ensemble à n dimensions, les valeurs prises par une

variable à expliquer y et une variable explicative x. Il s'agit, au vu de ces résultats,

de fournir une équation de prévision de y à partir de x.

Dans le graphe (xj, y), c'est-à-dire RP avec p = 2, on représente le nuage de

points (xq, yj) et on calcule la droite de régression y = ao + ai xi, en utilisant le

critère des moindres carrés. Dans cette présentation ao est visualisé comme

l'ordonnée à l'origine de la droite, a.^ la pente. La qualité de l'ajustement est

mesurée par le rapport de la somme des écarts à la variable prédite à la somme des

carrés des écarts à la moyenne,

y A

35

5.3 - CAS DE p - 1 VARIABLES EXPLICATIVES

Les variables explicatives sélectionnées ne doivent pas être fortement

corrélées entre elles mais doivent être de préférence corrélées avec la variable à

expliquer.

5.3.1 - Principe

On suppose que le modèle contient un terme constant qq ce qui simplifie

l'exposé. Soit xi le tableau (n, p-1) rassemblant les p - 1 variables explicatives et

Cq le vecteur des p-1 coefficients ai, a2, ... ap-i. Le modèle s'écrit :

(1) yi = a_ + Q: X: + ci0 1 1 {i = 1, n}

ei est une variable aléatoire de moyenne 0 et de variance constante o2, suivant

une loi normale.

Choix des variables explicatives

L'ajustement des moindres carrés est celui qui fournit les coefficients ai, a2,

.... ak et ap conduisant au minimum de la somme des carrés des écarts e :

ei = yj - ao - aixi

e'e = (y - ao - ax)' (y - ao - ax)

Si on adopte la notation matricielle.

5.3.2 - Représentation graphique

36

Rx étant l'espace engendré par les variables explicatives et u un vecteur

unitaire. On se place dans le plan (Rx, u) et on cherche la droite la plus proche de

oy, au sens de la métrique euclidienne : oy.

oy obtenue par projection se décompose suivant deux vecteurs ax et uao- Le

calcul de ao et des a résoud entièrement le problème.

5.3.3 - Résultats

Les valeurs ap et ao pour les coefficients ap et qq du modèle doivent, pour

minimiser e'e, annuler les dérivées partielles premières :

à

(e'e)= - 2u{y - X a- ua ) = 0 (1,1)ôa -00

d(e'e) = - 2X' {%' - X a - Ua ) = Q (p - 1, 1)

da 0^000

utilisant les données centrées : X© et y on obtient

(2)

a = (X' X )~^X' you 0

(pour les p - 1 coefficients ai, a2 ... ap - i)

P- 1

Y

K = 1

°o = y- 1 ""k^k

(pour le terme constant)

La matrice X'oXq est identique, au coefficient n près, à la matrice des

covariances empiriques entre les variables explicatives du modèle, notée Vxx :

Vxx = - X' X

On écrit de la même façon :

1Vxy = - X' y

n °

37

pour les p-1 covariances entre y et les xk.

Remarque

En fait, on préfère travailler sur la matrice des corrélations qui est mieux

conditionnée que la matrice de covariance.

La condition d'inversibilité de la matrice X'X est que les vecteurs (xi, xp)

soient linéairement indépendants.

Si on a calculé la matrice W d'ordre P des covariances empiriques entre toutes

les données du modèle, on peut supposer qu'elles sont rangées comme l'indique la

figure ci-dessous. Alors les coefficients de l'ajustement se calculent aisément à

partir des formules (2) transformées :

(3) a = V yXX xy

ip - 1. 1)

a = V a X

W =

(P,P)

Vxx

Vxy

Vxy

Vyy

P-1

D'après la formule (2) du calcul de a, on a

(4)

A A A

a'X' y = a'X' X a0 0 0

Par suite

AA AA AAA Ae'e= y'y -a'X' X a = y'y-a'X' y

On en tire en particulier la formule pratique suivante

P-1 ,

2_ e^ = " j Var(y) - ^ a^ Cov (y, X^)Í = 1 A' = 1

Soit 5^= X^a + a^, on peut vérifier à partir de (4) que

_/ 1 A A

Var (V) = - a'X' X a = VariX a) = Cov (y.X a] = Cov(^', v)0 0 0 '0 "

On peut définir le coefficient de corrélation multiple par

R = Cor (y, y)

Son carré s'exprime sous différentes formes :

9 J f-.^

2 Cov (y, -y) Var (-y) Coviy,Xoa)R'

Var [y) Var (y) Var [y] Var {y)

Ce coefficient r2 prend alors un sens en terme de partage de la variance

totale en variance "expliquée" et "résiduelle" :

Variance expliquée R2 Var (y) = Var (y)

Variance résiduelle

(1 - fí^) Var (y) = Var (e)

39

Variance totale

Var (y) - Yar (y) + Var íe)

Autre expression de R2

Var (e)«-=!--- = 1-

Var (y) n Var (y)

II apparaît sur cette relation qu'en minimisant 2e2i on maximise R2. En

d'autres termes l'ajustement des moindres carrés détermine le combinaison linéaire

des variables explicatives ayant une corrélation maximale avec la variable à

expliquer y.

5.4 - QUALITE DE LA REGRESSION

5.4.1 - T de Student

Les coefficients de Student concernent les tests réalisés sur la signification

des coefficients de régression partielle p, c'est-à-dire les tests où l'hypothèse nulle

est :

Ho : p = 0

Le coefficient de Student Tobs est le quotient de la valeur absolue du

coefficient de régression considéré par son écart-type. L'hypothèse nulle sera

rejetée à un niveau a si :

T , >Toos a

1

2

Ta

1 - -

est la valeur du T de Student avec n - p degrés de liberté si p est le nombre de

variables explicatives et si n est le nombre d'observations.

40

5.4.2 - F de Fischer

Un second test est réalisé par l'analyse de la variance et porte également

globalement sur la signification de l'ensemble des coefficients de régression

partielle, l'hypothèse nulle étant :

/fo = Pj = P,= p^=0

La somme des carrés des écarts totale peut être décomposée en une somme

des carrés des écarts due à la Régression et une somme des carrés des écarts

résiduelle.

Si l'hypothèse nulle est vraie le rapport des carrés moyens dûs à la Régression

aux carrés moyens résiduels est une valeur observée d'une valeur F de Fischer-

Snedecor àp-letn-p degrés de liberté. Si on admet un risque d'erreur a,

l'hypothèse nulle sera rejetée si Fobs - Fl - x*

5.4.3 - Résidus

L'examen des résidus, c'est-à-dire des écarts yj - yj entre les valeurs

observées de la variable à expliquer et les valeurs calculées par l'équation de

régression doit permettre de vérifier a posteriori la validité du modèle obtenu. Un

histogramme de ces résidus peut éviter à l'utilisateur des erreurs d'interprétation.

5.5 - REGRESSION BORNEE

La régression bornée (Ridge) s'applique dans le cas où les variables

explicatives sont fortement corrélées entre elles. Ce qui conduit à des matrices de

corrélation singulières et à des estimations de paramètres instables.

La procédure mise en oeuvre pour traiter ce type de Régression est très

simple : soit Z la matrice construite par centrage et réduction à partir de la

matrice X des variables explicatives du modèle. Pour ce faire, on ajoute

successivement k(l), k(2)... k(q) sur la diagonale de la matrice de corrélation et on

fait le calcul complet des coefficients de régression et des tests.

a^ (k) = (z'z + k Ip)-1 Z'Y

Z = Matrice de corrélation des variables explicatives

41

Y = Variable à expliquer

Ip = Matrice unitaire

k = constante de la Ridge comprise entre 0 et 1

az (k) = estimation du coefficient de régression pour la valeur k.

La norme quadratique des coefficients de régression décroît à mesure que k

augmente.

On peut représenter l'évolution des coefficients de Régression en fonction des

valeurs de k. On choisit la première valeur de k telle que tous les coefficients de

régression suivent une trajectoire monotone.

Oz(k)t

0,1 0^ 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0* k

pour k = 0.2, la condition de monotonie est réalisée.

On sait aussi calculer pour chaque valeur de k, la variance de chacun des

coefficients de régression estimés.

VARia^ik)} = o-(X'X)"^

02 correspondant à la variance des résidus.

42

6 - LA CLASSIFICATION ASCENDANTE HIERARCHIQUE

6.1 - PRINCIPE

Connue depuis LINNE (1770) cette méthode est restée en sommeil durant 2

siècles, faute de moyens de calcul efficaces. Depuis une dizaine d'années, de

nombreux chercheurs ont permis de réaliser des progrès considérables, rendant

possible des classifications sur 5000 individus.

Pour des raisons pédagogiques, on commence par exposer l'algorithme de base,

puis on expose sommairement les voisinages réciproques liés étroitement à

l'algorithme des célibataires.

Cette dernière méthode est la seule à être implantée au BRGM.

6.2 - NOTATIONS ET ALGORITHME DE BASE

On désigne par E l'ensemble à classifier, parP(E) l'ensemble de ses parties et

par 6 un indice de dissimilarité entre parties de E.

On rappelle que 5 est un indice de dissimilarité si et seulement si :

- 5 est une application de (E) x (E) dans R"*"

V A,B ^�):8(A,A) = 0

6 (A, fi) = 8 (B, A)

En général, les indices de dissimilarité utilisés permettent de calculer pour

tout {A, B, C) inclus dans (E).

5 (AUB, C) en fonction de ô (A, B), 8 (A, C) et 6 (B, C) par une formule dite "de

récurrence", si A et B sont disjoints.

On dit que 8 règle la procédure d'agrégation, il est appelé indice d'agrégation.

43

Algorithme :

- A l'étape de rang o, on a :

l'arbre Ao = {{i} ; i E} constitué de n = card E branches isolées, chacune

réduite à un élément de E.

On note l'ensemble des sommets de Ao :

som Ao = {{i} ; i E}

- A l'étape de rang 1, on recherche le couple

a è / Som Ao

tel que

ô (a , b ) = inf8 (i,J) tel que \ij ( SomAo, i ^ J i

On note le sommet formé : si = ai U bi

et on forme l'arbre : Ai = Ao U {si)

de sommets : som Ai = som Ao U {si) - {a'i, bi)

On définit, en outre, le niveau auquel a été réalisé l'agrégation

V (1) = 8(aj,6^)

On appelle ai et bi l'aîné et le benjamin du sommet si.

- A l'étape de rang h, on recherche le couple :

{ah> bh) som Ah - i tel que 6 (ah, bh) = {Inf 6 (i, j) tel que {i, j) ^ Som Ah - 1, i * j)

On note le nouveau sommet : Sh = ah U bh

et en forme l'arbre : Al = Ah - 1 U sh

de sommets : som Ah = som Ah - 1 U {Sh} - {ah, bh)

44

On définit encore le niveau auquel a été réalisé l'agrégation :

V (h) = 6 (ah, bh)

Remarques

- Posant V (o) = o, on a pour tout h {0, ..., n - 1}, v (h) R+ représente le

niveau auquel a été réalisé l'agrégation à l'étape de rang h.

V est appelé : indice de niveau de la hiérarchie.

- Sur l'arbre total An - l, seul arbre connexe de la hiérarchie, le sommet Sh

est placé à une abscisse égale à v (h). La hiérarchie ainsi obtenue est dite hiérachie

binaire totale indicée.

- A chaque étape h {1, ..., n - 1}, on est conduit à calculer la dissimilarité

entre le nouveau sommet et les sommets n'ayant pas été agrégés, au moyen de la

formule de récurrence.

6.3 - CRITERE D'AGREGATION DE LA VARIANCE D'UNE PARTITION MAXIMUM

On calcule d'abord étape par étape le niveau v d'agrégation.

m . m

Ô iq, s) = V (q, s) . d~ iq, s](m -f- m )

q s

q et s sont des classes ou des éléments de I, mq et ms leurs poids et d2 (q, s),

la distance euclidienne usuelle.

- Relation de récurrence générale :

8 (i, q f/s) = a {q, t) .8(t,q) + a is, t) . 6 (i, s) + a iq, s) . 8 (<?, s) + P it) . v (« -I- P (g) . v (<?) + P (s) . v (s)

Avec

aiq,t) =

a iq, s) =

(m + "/im^ + m m

Q s

im +S

im + m + mÍ

f

a is, t) =

im + m )t s

im + m + m )q s

P(0 =im + m + m )

t q s

45

m

P(ç) = P(s) =

im + m m )t q s

im + m + m )t q s

La classe qus est éventuellement créée au niveau v (q, s).

6.4 - EXEMPLE D'APPLICATION

- A chaque étape h, l'ensemble som Ah est une partition de E, si on considère

comme parties de E les sommets construits par agrégation d'éléments de E.

Ainsi, som Ao = {{ij ; i E} est la partition E la plus fine et som An - i, la

partition la plus grossière.

On note dans tout ce qui suit :

S = som Ao U ... U som An - 1» l'ensemble des sommets de la hiérarchie.

Exemple :

Soit E = {a, b, c, d, e} et la hiérarchie sur E :

0 2 5 10 14

46

Cette hiérarchie est constituée de la manière suivante

- Etape o :

Ao : Som Ao = {{a}, {b}, {c} {d}, {e}}

V (o) = 0

X X X X X

a b c d e

- Etape 1 :

Al = Ao U {{a}, {b}]

SI = {a} U {b}

Som Al = {si}, {c} {d}, {e}

V (1) = 2

SI

b c d e

47

- Etape 2 :

A2 = Al U {{d}, {e}}

S2 = {d} U {e}

Som A2 = {si}, {c} S2}

V (2) = 5

5

2

Si

- Etape 3 :

A3 = A2 U {{si}, {c}}

S3 = SI U {c}

Som A3 = {53}, {s2}

V (3) = 10

S2

b C d

10

V

2

0

Si

48

- Etape 4 :

A4 = A3 U {{S3}, {S2}}

S4 = {53} U {s2}

Som A4 = {S4}

V (4) = 14

14

10

2

0

S4

S3

S2

S 1

a b C d e

On obtient

l'arbre initial

6.5 - METHODE DES VOISINS RECIPROQUES

Le critère d'agrégation est celui de la maximisation de la variance et la

métrique est euclidienne ou celle du CHi2.

Ces éléments permettent une comparaison directe avec les résultats obtenus

dans une analyse en composante principale ou une analyse factorielie des

correspondances.

49

L'algorithme des voisins réciproques est d'une mise en oeuvre simple : il

repose sur la remarque que dès le premier calcul de la matrice de distances (voir

exemple précédent), on pouvait conclure à l'agrégation de a et b, mais aussi de d et

e. Dans quelle mesure cela est-il vrai ? Pour être assuré que a doit être agrégé à b,

il faut qu'à la fois b soit l'élément le plus proche de a et que a soit l'élément le plus

proche de b : on dit alors que a et b sont des voisins réciproques. Il faut aussi que

les agrégations effectuées entre d'autres éléments ne créent pas de nouveaux

noeuds qui se trouvent à une distance de a ou de b inférieure à v (a, b). Cette

condition s'écrit simplement et met en jeu trois éléments :

Pour tout a, b, c : V (a, b) < inf {v (a, c) ; v (b, c)} =i> v (a U b, c) > inf {v (a, c) ; v (b, c)}

Formule où a, b, c désignent trois éléments (individus ou classes d'individus) et

V (a, b) les niveaux d'agrégation de ces éléments.

La notion de célibataire permet une économie importante dans le calcul des

distances ; la recherche du plus proche voisin n'est à refaire que pour les

célibataires (outre la recherche à faire pour chaque noeud créé) tandis que les

éléments dont le plus proche voisin ne s'est pas agrégé garde celui-ci comme plus

proche voisin.

50

7 - NUEES DYNAMIQUES (*)

7.1 - BUT

Méthode de classification non hiérarchique permettant une partition de n

individus, chacun décrit par p variables en fonction d'un nombre de "tirages"

déterminé par l'utilisateur.

7.2 - PRINCIPE

- On choisit d'abord des individus étalons qui vont constituer au départ le

noyau de chaque classe.

- On calcule ensuite la distance (cf. annexe 1) euclidienne ou du CHi2 entre

chaque individu et le centre de gravité de chaque noyau. L'individu est affecté à la

classe dont le centre de gravité est le plus proche.

- Lorsque tous les individus sont affectés à une classe, on obtient une

première classification qui correspond au premier tirage demandé à l'utilisateur. On

détermine ensuite les nouveaux centres de gravité de chaque classe à partir de la

totalité des individus qui les constituent (cf. annexe 2).

- On sélectionne de nouveaux noyaux en prenant comme étalons, les individus

de la classe qui sont les plus proches du nouveau centre de gravité.

- On recommence ensuite le processus autant de fois que de tirages demandés

par l'utilisateur.

- On montre que le processus converge, au moins vers un optimum local c'est-

à- dire vers une classification cohérente mais non nécessairement la meilleure.

- Pour chaque individu est ainsi déterminé un profil pour l'ensemble des

tirages. En final le nombre de classes proposées correspond au nombre de profils

différents obtenus. Chaque classe ou chaque forme forte est l'ensemble des

individus ayant même profiL

7.3 - CONSEILS D'UTILISATION

En pratique, on peut employer la méthode de deux façons :

- On connaît peu les individus et dans ce cas, les étalons seront tirés au ha¬

sard ; on effectue alors plusieurs tirages 4 ou 5), chaque tirage permettra la

constitution d'une classification, l'ensemble des tirages conduira à une classification

résultante dont les classes seront stables quels que soient les étalons de départ.

51

- On connaît la structure des individus et dans ce cas, on fournit au

programme les étalons de chaque classe. Un seul tirage est alors suffisant pour

obtenir une partition directe de l'ensemble des individus.

Dans les deux cas il est souhaitable d'effectuer au préalable une analyse

factorielie qui permettra d'avoir une idée sur les individus à classer.

Le nombre d'étalons de départ doit correspondre pour chaque classe à 5 % de

la population traitée sinon l'on risque de créer des classes représentées seulement

par très peu d'individus.

7.4 - EXEMPLES

Dans cet exemple nous choisirons de tirer les étalons au hasard. On cherche à

classer des individus, on choisit 4 tirages et 3 noyaux. On décide que chaque noyau

sera constitué par 2 étalons (en fait il faudrait respecter la règle du nombre des

étalons = 5 % de la population, nous simplifierons pour la clarté des schémas).

Tirage n"!

- 6 individus sont donc tirés au hasard pour constituer les noyaux.

Noyau 1 Noyau 2 Noyau 3

- On détermine ensuite le centre de gravité de chaque noyau.

- Puis on affecte chaque individu de l'ensemble au noyau dont la distance (au

sens de la distance choisie) au centre de gravité est minimale.

- Lorsque tous les individus sont affectés, on obtient alors, pour ce premier

tirage, 3 classes. Mais ces classes n'ont pas de signification en elles-mêmes puisque

leur centre de gravité est établi à partir d'étalons tirés au hasard. Par contre, il

sera important de noter le comportement des individus au cours des tirages

successifs.

52

Le résultat du tirage n°l est le suivant

Classe 1 Classe 2 Classe 3

Pour chaque classe on détermine le centre de gravité à partir de tous les

individus qui la composent.

Tirage n''2

Pour ce second tirage, on sélectionne de nouveaux noyaux par tirage au

hasard.

Noyau 1 Noyau 2 Noyau 3

53

On réïtère le processus d'affectation comme au tirage n°l, et l'on obtient,

pour ce 2e tirage la classification suivante :

Classe 1 Classe 2 Classe 3

On se gardera de comparer la classe 1 du tirage 1 à la classe 1 du tirage 2, ces

2 classes sont totalement différentes puisqu'établies à partir d'étalons différents.

Lors des tirages 3 et 4 on obtient les résultats suivants :

Tirage n**3

Classe 1 Classe 2 Classe 3

Tirage n*'4

54

Classe 1 Classe 2 Classe 3

On note ensuite pour chaque individu, son comportement au cours des

4 tirages successifs. Ce comportement est repéré comme suit :

Au tirage n°l, l'individu A se trouvait dans la classe n°3

Au tirage n°2, l'individu A se trouvait dans la classe n°l

Au tirage n°3, l'individu A se trouvait dans la classe n°2

Au tirage n°4, l'individu A se trouvait dans la classe n°l

Son profil est donc : "3121"

On établit le profil de tous les individus :

A : 3121

B : 1322

C : 2133

D : 3121

E : 1212

F : 2133

G : 2133

H : 1322

I : 2133

J : 1323

K : 1212

L : 3121

M : 3121

N : 1212

O : 3121

On constate alors qu'il existe 5 profils différents

2133 - 1212 - 3121 - 1322 et 1323

Ceci indique qu'il existe 5 types de comportements différents, on peut

rassembler les individus qui ont eu un comportement voisin (identifié par le même

profil) lors des 4 classifications dans des systèmes de référence différents à chaque

fois. Le programme nous fournit donc ici 5 classes pour 4 tirages et 3 noyaux au

départ :

55

Classe de profil 2133 = {C, F, G, 1}

Classe de profil 1212 = {K, N, E}

Classe de profil 3121 = {L, O, M, A, D}

Classe de profil 1322 = {B, H}

Classe de profil 1323 = {J}

On observera que pour 2 tirages nous n'aurions que 4 classes dont les profils

auraient été : 21 - 12 - 31 et 13, et pour 3 tirages, 4 classes également : 213 - 121 -

312 et 132, les individus B, H et J étant regroupés. Cette classification dynamique

met donc en évidence des groupes d'individus ou formes fortes qui restent stables

d'un tirage à l'autre, par contre certains individus sont plus difficiles à classer et

peuvent apparaître selon le tirage dans l'une ou l'autre des classes. Ce sera ensuite

lors de l'interprétation des résultats par l'utilisateur d'identifier les caractéristiques

des formes fortes et d'expliquer l'instabilité de certains individus.

Dans le cas où les individus sont connus et que l'utilisateur désigne les étalons

de chaque noyau, chaque classe constituée par l'affectation de tous les individus a

alors une signification fonction de ce que représentent les étalons, et puisqu'une

seule itération s'avère suffisante, le nombre de noyaux choisi déterminera le

nombre de classes.

(*) Ce chapitre a été rédigé par Monsieur Serrano DT/ISA.

56

CONCLUSION

Ce document contient un ensemble de concepts mathématiques et statistiques

se traduisant par une formalisation des points de départ d'une méthode à son

aboutissement, sans démonstration.

L'utilisateur voulant approfondir certains points peut consulter des éléments

de la bibliographie jointe.

Pour fixer les idées, le néophyte doit se reporter au tome suivant, traitant un

exemple concret et l'utiliser en parallèle avec celui-ci.

57

BIBLIOGRAPHIE

A.I.D.E.P. - Statistiques et probabilités (Dunod, 1974) 2 tomes.

ANDERSON T. - A bibliography of multivariate analysis (Oliver & Boyd 1967).

BENZECRI & Collaborateurs - L'analyse des données (Dunod 1973) 2 tomes Pers.

CAILLEZ F., PAGES JP - Introduction à l'analyse des données (Smash 1976).

CEHESSAT R. - Exercices commentés de statistique et informatique appliquée

(Dunod 1976)

COOLEY N., LOHNES P. - Multivariate Procedure for the behavorial sciences (John

Wiley 1962).

DAVIS J.C. - Statistic and data analysis (John Wiley 1973).

DIDAY & Collaborateurs - Optimisation en classification automatique (INRIA 1979)

2 tomes.

FENELON J. - Qu'est-ce que l'analyse des données (Lefonen 1981).

GIRAULT M. - Calcul des probabilités en vue des applications (Dunod 1972).

GUIGNOU J.L. - Méthodes multidimensionnelles (Dunod 1977).

HARRIS R.J. - A primer of multivariate analysis (Academic Press NY 1975).

HOEL - Introduction to mathematical statistics (John Wiley 1958).

JAMBU M., LEBEAUX M.O - Classification automatique pour l'analyse des données

(Dunod 1978) 2 tomes.

KENDALL M. - Multivariate analysis (Griffin et compagny LTD 1975).

KOCH G., LINK R. - Statistic analysis of geological data (John Wiley 1971).

58

LAFFITE P. - Traité d'informatique minière (Masson 1972).

LEBART L., MORINEAU A., TABARD N. - Technique de la description statistique

(Dunod 1977).

MORRISON - Multivariate statistical methods CMC GRAW-HILL 1067.

ROMEDER J.M. - Méthode et programmes d'analyse discriminante (Dunod 1973).