Tout Sur Spatial Correlation

download Tout Sur Spatial Correlation

of 149

Transcript of Tout Sur Spatial Correlation

Le progiciel RAnalyse multidimensionnelle, analyse spatialeVersions CMS (IBM), VMS (VAX) et Macintosh

Pierre Legendre / Alain Vaudor

Universit de Montral

Le progiciel RAnalyse multidimensionnelle, analyse spatialeVersions CMS (IBM), VMS (VAX) et Macintosh

Pierre Legendre et Alain VaudorDpartement de sciences biologiques Universit de Montral C.P. 6128, Succursale A Montral, Qubec Canada H3C 3J7 Courrier lectronique P. Legendre: Legendre @ Ere.UMontreal.CA A. Vaudor: Vaudor @ Ere.UMontreal.CA

Ce manuel a t prpar avec lassistance ditoriale de Chantal Ouimet, Franois-Joseph Lapointe et Gilles Lavoie

Universit de Montral, septembre 1991 Mise jour:

AvertissementCes programmes vous sont fournis sans aucune garantie implicite ou explicite de bon fonctionnement. Il s'agit de programmes mis au point dans le cadre de recherches universitaires. Cependant, si vous prouvez des problmes avec l'un ou l'autre des programmes de ce progiciel, nous serons heureux de tenter de vous dpanner (voir section 5, page 6). Les chercheurs peuvent utiliser ces programmes pour les fins de leurs recherches, mais le code-source des programmes demeure la proprit des auteurs de ce manuel.

V ous devez disposer des polices de caractres suivantes pour imprimer ce document: Times, Courier et Symbol. La mise en page a t effectue en fonction dune imprimante laser de type PostScript.

Rfrence de ce manuel: Legendre, P. et A. Vaudor. 1991. Le progiciel R Analyse multidimensionnelle, analyse spatiale. Dpartement de sciences biologiques, Universit de Montral. iv + 144 p.

ii

Table des MatiresUn peu dhistoire Accs aux programmes 1. En interactif, systme CMS (IBM) 2. En interactif, systme VMS (VAX) 3. En lot (Batch), systme CMS (IBM) 4. Version Macintosh 5. Documentation d'un problme Description des programmes AUTOCORRLATIONMacintosh ou AUTOCORCMS/VMS BIOGO CHRONO COCOPA N CONNEXIONSMacintosh CONVERSIONMacintosh ou CONVERTCMS/VMS DISTANCES GOGRAPHIQUESMacintosh ou DISTCMS/VMS E X P NT SCMS EXPORTCMS/VMS GROUPEMENTSMacintosh IMPORTCMS/VMS IMPORT-EXPORTMacintosh INTERLNKCMS/VMS K-MEANSMacintosh ou K ME ANSCMS/VMS LANCECMS/VMS MANTEL PCOORD PRIODOGRAPHEMacintosh ou PERIODCMS/VMS PNCOMPMacintosh REGARDE SIMIL VERNORM Rfrences 8 19 24 31 41 48 50 51 52 53 57 58 60 62 71 76 87 93 100 109 111 126 141 1 2 4 5 6 iv

iii

iv

LE PROGICIEL R

UN PEU DHISTOIRECet ensemble de programmes d'ordinateur a t crit au fil des ans par Alain Vaudor (Analyste de l'Informatique) et Pierre Legendre. Le dveloppement du progiciel dbuta en 1978, l'Universit du Qubec Montral, sur machines PDP-10 et CDC/CYBER. En 1980, le progiciel dmnagea en mme temps que nous l'Universit de Montral, o son dveloppement s'est poursuivi depuis. Des programmes furent d'abord mis au point pour les mthodes gnrales d'analyse de donnes (mesures de similarit et de distance, diffrentes mthodes de groupement, des ordinations, etc., en plus des programmes utilitaires ncessaires); les programmes correspondant des mthodes plus spcifiques, rpondant des questions plus particulires, furent dvelopps ensuite (priodogramme de contingence, groupement chronologique, groupements avec contrainte de contigut spatiale, autocorrlation spatiale, tests de Mantel, Cocopan). Les programmes furent graduellement amliors et devinrent plus conviviaux, grce aux commentaires de gnrations successives d'tudiants diplms et d'autres usagers. De premires versions pour machines IBM furent mises au point, indpendamment, l'University of Waterloo (Ontario) et l'Universit de Sherbrooke (Qubec), pour utilisation en lot seulement. La version conversationnelle IBM a t dveloppe par P. Legendre depuis 1985, dabord sur les ordinateurs du C.N.U.S.C. (Montpellier, France) et du Department of Ecology and Evolution, State University of New York (Stony Brook, U.S.A.), puis sur celui de lcole Polytechnique de Montral. Cette version fut adapte au VAX lUniversit de Montral en 1989. Les programmes devinrent bilingues (franais/anglais) l'occasion de l'implantation Stony Brook. Il aura fallu 13 ans pour complter le dveloppement de ce progiciel et la rdaction de sa documentation; cette priode inclut le temps ncessaire au dveloppement, en notre laboratoire, de plusieurs des mthodes qui y sont mises en oeuvre, ainsi que la rdaction des publication concomitantes. Les programmes eux-mmes sont crits en PASCAL alors que les programmes d'appel sur IBM sont en REXX et en DCL sur VAX. Ils ont t fournis nombre d'tablissements universitaires en Amrique du Nord, en Europe et en Amrique du Sud. Les versions disponibles en ce moment sont: ________________________________________________________________________________ Type d'ordinateur Conversation Systme Programmes avec l'usager d'exploitation d'appel ________________________________________________________________________________ IBM (grands ordinateurs) Franais ou anglais VM/CMS Fichiers EXEC (REXX) V AX Franais ou anglais V AX/VMS Fichiers DCL Apple Macintosh Franais ou anglais Cliquez sur l'icne! ________________________________________________________________________________ On peut se procurer ces programmes contre 25 $ (Can., US ou Aust.), ce qui couvre le prix de la disquette et dune copie de la documentation ainsi que les frais de poste. Prcisez la version dsire; pour les versions CMS et VMS, indiquez si vous dsirez recevoir une disquette devant tre relue par un Macintosh ou par un micro-ordinateur oprant sous MS/DOS (si vous prfrez des disquettes de 5.25 pouces, prcisez-le). Une copie de la documentation accompagnera tout envoi; spcifiez la langue dsire (franais ou anglais). Des programmes individuels pourront tre expdis par courrier lectronique. La version Macintosh est fournie dj compile, alors que les versions pour grands ordinateurs sont fournies sous la forme de fichiers-source, ce qui permet aux usagers de changer la taille des matrices pouvant tre traites par les programmes, ainsi que la langue de la conversation; ceci implique cependant que les usagers doivent compiler eux-mmes les programmes avant de pouvoir les utiliser (compilateur PASCALVS ou VSPASCAL sur IBM; compilateur PASCAL sur VAX). Le nom du progiciel, "R", provient de nos travaux sur machine PDP-10 en 1978. Sur ce type de machine, "R" (pour Run) est la commande de dmarrage d'un programme. Sur les machines Control Data, "R" tait un grand fichier de commande en langage CCL, partir duquel l'usager pouvait mettre en marche n'importe quel programme du progiciel; cette faon de faire simulait la faon de procder sur machine PDP. Le nom de ce fichier s'est impos pour devenir le nom du progiciel.

LE PROGICIEL R

1

ACCES AUX PROGRAMMES1. En interactif, systme CMS (IBM) Pour utiliser les programmes de ce progiciel partir de sa propre machine virtuelle, l'usager doit d'abord s'attacher au minidisque contenant les fichiers EXEC et les programmes constituant "R", moins quil ne travaille directement sur la machine virtuelle contenant tous ces fichiers. Inscrire ici les commandes ncessaires sur votre machine:

Les commandes EXEC disponibles sont les suivantes. Chacune provoque l'excution du programme correspondant. * * * * * * * * * AUTOCOR BIOGEO CHRONO COCOPA N CONVERT DIST EXPNTS EXPORT IMPORT * * * * * * * * * INTERLNK KMEANS LANCE MANTEL PCOORD PERIOD REGARDE SIMIL VERNORM

Ces commandes mettent en route les programmes suivants: * AUTOCOR: Autocorrlation spatiale unidimensionnelle (coefficients I de Moran et c de Geary). Ce programme permet galement de calculer une liste de liens selon diffrents algorithmes, utilise par les programmes Biogeo, KMeans (lorsqu'il est employ avec contrainte) et Cocopan. * BIOGEO: Groupement avec contrainte de contigut spatiale. Mthode: liens intermdiaires. * CHRONO: Groupement chronologique (avec contrainte de contigut temporelle, ou spatiale en une seule dimension). * COCOPA N: Analyse de variance en prsence d'autocorrlation spatiale. * CONVERT: Convertit les S imilarits en Distances, ou les Distances en S imilarits. * DIST: Calcul des distances en suivant la courbure de la terre, partir de longitudes et de latitudes. * EXPNTS: Convertit une matrice binaire de type SIMIL en une matrice binaire de type NT-SYS (Numerical Taxonomy and Multivariate Analysis System de F. James Rohlf). * EXPORT: Convertit une matrice binaire de type SIMIL en une matrice ASCII carre. * IMPORT: Convertit une matrice ASCII carre en une matrice binaire de type SIMIL. * INTERLNK: Groupement liens intermdiaires (algorithme de liaison proportionnelle). * K-MEANS: Groupement selon la mthode K-Means (variance minimum), avec ou sans contrainte de contigut spatiale. * LANCE: Groupement selon l'algorithme gnral de Lance & Williams, incluant Ward. * MANTEL: test de Mantel, tests partiels de Mantel, corrlogramme multidimensionnel. * PCOORD: Analyse en coordonnes principales. * PERIOD: Calcul du priodogramme de contingence. * REGARDE: pour regarder ou imprimer un fichier binaire produit par SIMIL. * SIMIL: 50 mesures de ressemblance. Les coefficients sont calcules uniquement entre les LIGNES d'un fichier de donnes. Pour les coefficients en mode Q, les lignes de la matrice de donnes doivent correspondre aux objets; en mode R, les lignes doivent correspondre aux descripteurs. * VERNORM: Vrification et normalisation des colonnes (variables) d'un fichier de donnes.

2

LE PROGICIEL R

Certains programmes requirent plus de mmoire que la quantit attribue par dfaut aux usagers. Ce problme peut aussi surgir si on a augment les dimensions d'un programme pour traiter des fichiers de donnes particulirement grands. L'usager doit alors recourir a la commande DEF STOR pour avoir accs de l'espace-mmoire supplmentaire. Par ailleurs, lors de l'excution des programmes conversationnels, le texte affich par les programmes de mme que les rponses de l'usager aux questions apparaissent normalement uniquement l'cran. Enfin, les programmes CHRONO, MANTEL et PERIOD par exemple ne prsentent qu' l'cran le rsultat de leurs calculs. Si on dsire conserver cet ensemble de questions, de rponses et de rsultats dans un fichier, en vue de le consulter ou de le faire ventuellement imprimer, il faut donner la commande suivante avant de dmarrer l'excution du programme:CP SPOOL CONS START TO *

Cette commande doit tre excute en dehors de tout FILELIST. De nouveau, on peut prfrer inscrire l'avance cette commande dans un fichier EXEC (appel par exemple le fichier RETIENS EXEC). Aprs avoir fait excuter un ou plusieurs programmes, et de nouveau en dehors de tout FILELIST, on crit:CLOSE CONS NAME MEMOIRE CONSOLE CP SPOOL CONS STOP

(ces commandes peuvent se trouver dans un fichier EXEC). Le fichier contenant les interactions, auquel on donne par exemple le nom MEMOIRE CONSOLE comme ci-dessus, se retrouve dans le "Reader list", auquel on accde par la commande RDRL. On peut videmment diter ce fichier pour lui enlever des sections inutiles, avant de le faire imprimer. 2. En interactif, systme VMS (VA X ) Sur machine VAX, les programmes sont appels par des fichiers de commandes DCL quivalents aux EXEC de l'IBM: VERNORM.COM, SIMIL.COM, etc. L'usager possdant une copie du progiciel "R" sur son propre compte peut donc appeler directement les programmes en tapant le signe @ suivi du nom du programme dsir; par exemple: @VERNORM, @SIMIL, etc. Une deuxime possibilit consiste activer le fichier de commande R.COM en tapant @R. Ce fichier donne les noms et adresses des auteurs du progiciel et numre les programmes disponibles dans le progiciel "R". Son excution permet ensuite l'usager d'appeler les programmes sans le symbole @; par exemple: VERNORM, SIMIL, etc. On peut installer le progiciel de faon ce qu'il soit accessible aux autres usagers du VAX. Le "dpositaire" du progiciel devra modifier tous les fichiers de commandes (y compris R.COM) en ajoutant son adresse-machine partout o un programme ou un autre fichier de commande est appel (par RUN ou par @). Par exemple:@VERNORM RUN SIMIL

peut devenir peut devenir

@DUA1:[Tartempion]VERNORM @DUA1:[Tartempion]SIMIL

Il demandera chaque usager d'ajouter dans son fichier LOGIN.COM une instruction du type:$ R:=="@DUA1:[Tartempion]R.COM"

LE PROGICIEL R

3

Prparation des donnesFichier 1 (ASCII)

Version CMS/VMSSries temporelles: analyse priodique PERIOD- priodogramme de contingence (variables nominales)

VERNORM- transposition - normalisation - transformations - division en classes - histogrammes - tests de normalit - rcriture du fichier

Programmes utilitaires- regarder ou imprimer une mat. bin. de type SIMIL

Fichier 2 (ASCII)

REGARDE EXPNTS

DIST- distances suivant la courbure de la terre

SIMIL- calcul de similarits, distances, ou coeff. en mode R entre les lignes du fichier 1 ou 2

- convertit mat. type SIMIL: en mat. bin. type NT-SYS

EXPORT- transforme une matrice de type SIMIL en mat. carre

Fichier 4 (ASCII) - matrice de similarits/ distances/corrlations

Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits

IMPORT- convertit mat. carre en mat. binaire de type SIMIL

AUTOCOR- diffrentes mthodes de connexion gogr. Fichier 5 (ASCII) - liste de liens

CONVERT- convertit une matrice S en D ou vice-versa

Analyse de donnes sans contrainte INTERLNK- groupements liens (liaison proportionnelle)

Groupement sous contrainte CHRONO- contrainte en 1 dimension (temps ou transect spatial)

Analyse spatiale MANTEL- test de Mantel, 2 matr. - tests de Mantel partiels - corrlogr. de Mantel

LANCE- Lance & Williams, Ward - analyse en coordonnes principales

BIOGEO- contrainte en deux dimensions ou plus (algorithme: liaison proportionnelle)

AUTOCOR(mme programme que l'utilitaire ci-dessus) - corrlogrammes spatiaux (I de Moran, c de Geary)

PCOORD

K-MEANS K-MEANS- groupement "k-means" - contrainte en deux dimensions ou plus (algorithme: "k-means")

COCOPAN- analyse de variance pour donnes rgionalises

4

LE PROGICIEL R

Aprs avoir valid son LOGIN de commandes, le nouvel usager n'aura plus qu' taperR

ce qui fera apparatre le message d'entre. Ds lors, pour la session VAX en cours, chaque programme pourra tre appel simplement par son nom. 3. En lot (Batch), systme CMS (IBM) Pour l'excution en lot, les noms des fichiers de donnes et de rsultats sont spcifis dans des fichiers EXEC. Les rponses aux questions poses par le programme, aprs le message informatif "EXECUTION BEGINS ...", doivent se trouver dans un fichier de rponses dont le nom sera plac dans le fichier EXEC. Quatre programmes demandent parfois d'tre accessibles en lot lorsqu'on dsire traiter des fichiers de grande taille; il s'agit de SIMIL, MANTEL, AUTOCOR et PCOORD. Les fichiers EXEC correspondant (SIMILOT, MANTELOT, AUTOLOT, PCOORLOT) peuvent se trouver sur la machine PROGICIEL-R o rside le progiciel. Pour une excution en lot, il est ncessaire de copier l'EXEC dsir de la machine PROGICIEL-R vers la vtre et d'y apporter les adaptations ncessaires. Un programme se lance en lot par la commande habituelle; par exemple:SUBMIT SIMILOT (CPU ...

Exemple: fichier SIMILOT EXEC /* Ces lignes sont des commentaires *//* Fichier de lancement du programme SIMIL en lot. */ GLOBAL TXTLIB VSPASCAL FI OUTPUT PRINTER /* Nom du fichier contenant les rponses aux questions: */ FI INPUT DISK reponses simil a /* Nom du fichier de donnees: */ FI ENTREEC DISK fichier donnees a /* Nom du fichier contenant la matrice de ressemblance calculee par SIMIL: */ FI SORTIE DISK fichier binaire a /* Nom du fichier contenant les matrices de similarites partielles: */ FI PART DISK fichier partiel a /* Nom du fichier contenant la matrice des probabilites, sil y a lieu: */ FI PROBAB DISK fichier probab a /* La ligne suivante lance la version redimensionnee du programme SIMIL: */ "LOAD SIMILOT (START" /* Changer si ncessaire le nom de la machine do mane cette passe en LOT: */ "SENDFILE fichier binaire a TO PROGICIELR" "SENDFILE fichier partiel a TO PROGICIELR" "SENDFILE fichier probab a TO PROGICIELR"

Les noms des diffrents fichiers doivent tre adapts vos donnes. Le fichier de rponses ne doit contenir que les rponses aux questions poses par les programmes pour cette passe prcise. Exemple de fichier de rponses aux questions du programme SIMIL:Un titre de votre choix. 380 [nombre de lignes ou de 109 [nombre de colonnes]

blocs de lignes]

LE PROGICIEL R

5

N S01 5

[il ny a pas de noms dobjets en col. 1-10] [code dsignant le coefficient dsir] [linformation sera code 1 partir de la valeur 5]

Une faon simple d'obtenir la liste des questions est de lancer l'excution de manire interactive sur un fichier bidon ou sur une partie du fichier rel. 4. Version Macintosh Dans la version Macintosh, les programmes sont essentiellement les mmes que dans les versions CMS et VMS. Dans quelques cas, des rarrangements ont t raliss qui permettent de tirer meilleur partie de linterface-usager du Macintosh. Les programmes disponibles sont les suivants: * AUTOCORRLATION: Autocorrlation spatiale unidimensionnelle (coefficients I de Moran et c de Geary). * BIOGO: Groupement avec contrainte de contigut spatiale. Mthode: liens intermdiaires. * CHRONO: Groupement chronologique (avec contrainte de contigut temporelle, ou spatiale en une seule dimension). * COCOPA N: Analyse de variance en prsence d'autocorrlation spatiale. * CONNEXIONS: Calcule une liste de liens selon diffrents algorithmes. Cette liste est utilise par les programmes Biogo, K-Means (employ avec contrainte), Cocopan et Autocorrlation. * CONVERSION: Convertit les S imilarits en Distances, ou les Distances en S imilarits (quivalent de CONVERT des versions CMS et VMS). * DISTANCES GOGRAPHIQUES: Calcul des distances en suivant la courbure de la terre, partir de longitudes et de latitudes. * GROUPEMENTS: Liens intermdiaires, Lance & Williams, Ward (remplace LANCE et INTERLNK des versions CMS et VMS). * IMPORT-EXPORT: Pour importer des matrices de ressemblance et les transformer en format binaire de type SIMIL, ou pour exporter des matrices produites par SIMIL vers d'autres programmes. Remplace IMPORT et EXPORT des versions pour grands ordinateurs. * K-MEANS: Groupement selon la mthode K-Means (variance minimum), avec ou sans contrainte de contigut spatiale. * MANTEL: test de Mantel, tests partiels de Mantel, corrlogramme multidimensionnel. * PCOORD: Analyse en coordonnes principales. * PRIODOGRAPHE: Calcul du priodogramme de contingence. * PNCOMP: Analyse en composantes principales. * REGARDE: pour regarder ou imprimer un fichier binaire produit par SIMIL. * SIMIL: 50 mesures de ressemblance. Les coefficients sont calculs uniquement entre les LIGNES d'un fichier de donnes. Pour les coefficients en mode Q, les lignes de la matrice de donnes doivent correspondre aux objets; en mode R, les lignes doivent correspondre aux descripteurs. * VERNORM: Vrification et normalisation des colonnes (variables) d'un fichier de donnes. Pour l'utilisation courante, il est prfrable de transfrer les programmes sur disque rigide, ou encore de travailler avec deux disquettes; assurez-vous que votre environnement de travail comprend un SYSTEM FILE, une icne correspondant votre type d'imprimante, ainsi qu'un diteur de programmation (voir la raison plus bas). Si vous dsirez utiliser l'imprimante (par exemple, pour obtenir les rsultats des groupements), assurez-vous que la disquette o se trouve le systme contient au moins de 30 50K d'espace libre, ce qui permettra au systme de crer ses fichiers temporaires lors de l'impression.

6

LE PROGICIEL R

Les fichiers de donnes doivent tre des matrices rectangulaires de nombres entiers ou rels, du type "texte seulement" (code ASCII). On peut les extraire en "texte seulement" de chiffriers ou de programmes de traitement de texte, ou mieux encore, on peut les fabriquer l'aide d'un diteur de programmation, tel que celui fourni sur la disquette. Les fichiers de donnes transfrs par MODEM partir de grands ordinateurs sont habituellement de type ASCII. Pour slectionner le fichier d'entre d'un programme, il suffit de cocher "OUVRIR" aprs avoir noirci le nom du fichier dsir. Ne sont prsents que les fichiers de la disquette qui sont d'un type appropri pour le programme en question: fichiers "texte seulement" pour l'entre de VERNORM, SIMIL, PRIODOGRAPHE et IMPORT-EXPORT (selon l'option); fichiers binaires de type "SIMIL" pour IMPORT-EXPORT (selon l'option) et pour la plupart des autres programmes. Fichiers de sortie: pour les fichiers de sortie de SIMIL, on change le nom propos et on coche "ENREGISTRER". Pour les programmes d'analyse de donnes, les sorties se font normalement sur l'imprimante. Si on est d'accord, on coche la case "ENREGISTRER"; sinon, il suffit de changer le mot "imprimante" pour un nom de fichier de son choix et de cocher la case "ENREGISTRER". Ce fichier, de type ASCII, pourra tre relu l'aide d'un diteur de programmation. Lorsqu'on doit fournir des nombres en rponse aux questions du programme, il faut se rappeler que les programmes sont crits en PASCAL; il faut donc crire " 0.5 " et non pas " .5 " , par exemple. Il en est de mme des fichiers de donnes. Cette recommandation est galement valable pour les versions CMS et VMS. Dans la version Macintosh, les programmes numrots 3 et plus sont librs de cette contrainte et peuvent lire des donnes du type .2, -.57, +0.1, -0., 5E+2, +1.0e-8, etc. 5. Documentation d'un problme Ces programmes vous sont fournis sans aucune garantie implicite ou explicite de bon fonctionnement. Il s'agit de programmes mis au point dans le cadre de recherches universitaires. Cependant, si vous prouviez des problmes avec l'un ou l'autre des programmes de ce progiciel, nous serons heureux de tenter de vous dpanner et, du mme coup, de rgler ce problme pour l'ensemble des usagers de "R". Pour cela, il importe de nous fournir un maximum d'informations, et en particulier: - La version du programme que vous utilisez (voir la ligne Version dans la fentre Info); date du programme (galement dans la fentre Info) ou date laquelle vous l'avez reu. - Les fichier(s) d'entre; dans bien des cas, les problmes qui nous sont soumis concernent simplement des erreurs de structure ou de contenu de ces fichiers. Sur Macintosh, les fichiers binaires de type SIMIL peuvent tre compacts (par BINHEX ou STUFFIT) puis transmis par courrier lectronique. Sur les grands ordinateurs IBM, les fichiers binaires de type SIMIL peuvent tre transmis directement par courrier lectronique. - Les fichier(s) de sortie, incluant les messages que peuvent contenir ces fichiers. - Tout autre message reu l'cran. Veuillez soumettre ces informations Alain Vaudor par courrier lectronique, l'adresse en couverture, ou dfaut, par courrier rgulier (papier ou disquette). Si vous installez ces programmes sur des machines diffrentes de celles sur lesquels ils ont t tests, il vous sera ncessaire de vrifier en dtail le bon fonctionnement des programmes ainsi que la justesse des rsultats. Il existe des diffrences de dialecte entre compilateurs PASCAL; de plus, les diffrences de longueur des mots-machine, ainsi que dans les valeurs minimum et maximum que peuvent prendre les nombres rels sur diffrentes machines, sont des sources potentielles de problmes.

LE PROGICIEL R

7

Prparation des donnesFichier 1 (ASCII)

Version MacintoshSries temporelles: analyse priodique PRIODOGRAPHE- priodogramme de contingence (variables nominales)

VERNORM- transposition - normalisation - transformations - division en classes - histogrammes - tests de normalit - rcriture du fichier

Programmes utilitairesFichier 2 (ASCII)

REGARDE- regarder ou imprimer le contenu d'une matrice binaire de type SIMIL

DISTANCES GOGRAPHIQUES- distances suivant la courbure de la terre Fichier 4 (ASCII) - matrice de similarits/ distances/corrlations

SIMIL- calcul de similarits, distances, ou coeff. en mode R entre les lignes du fichier 1 ou 2

IMPORT-EXPORT- convertit mat. carre en mat. binaire de type SIMIL - transforme une matrice de type SIMIL en mat. carre

Fichier 3 (binaire) - Matrice de ressemblance Probab (binaire) - Matrice de probabilits

CONNEXIONS- diffrentes mthodes de connexion gogr. Fichier 5 (ASCII) - liste de liens

CONVERSION- convertit une matrice S en D ou vice-versa

Analyse de donnes sans contrainte GROUPEMENTS- groupements liens - Lance & Williams, Ward - analyse en coordonnes principales

Groupement sous contrainte CHRONO- contrainte en 1 dimension (temps ou transect spatial)

Analyse spatiale MANTEL- test de Mantel, 2 matr. - tests de Mantel partiels - corrlogr. de Mantel

PCOORD

BIOGO- contrainte en deux dimensions ou plus (algorithme: liaison proportionnelle)

AUTOCORRLATION- corrlogrammes spatiaux (I de Moran, c de Geary)

PNCOMP- analyse en composantes principales

K-MEANS- contrainte en deux dimensions ou plus (algorithme: "k-means")

COCOPAN- analyse de variance pour donnes rgionalises

K-MEANS- groupement "k-means"

8

LE PROGICIEL R

DESCRIPTION DES PROGRAMMES AUTOCORRLATIONMacintosh ou AUTOCORCMS/VMSQue fait AUTOCOR ? Le programme AUTOCOR analyse l'autocorrlation spatiale dune variable selon diffrents schmas de connexions et de distances entre les points. Cette mthode est strictement univariable; voir le programme MANTEL pour l'quivalent multivariable. L'autocorrlation est mesure par les indices I de Moran et c de Geary, sil sagit de donnes quantitatives. Si les donnes sont ordinales ou nominales, les S.N.D. (standard normal deviates) sont calculs pour chaque classe de distance. Chaque valeur est accompagne de la probabilit que celle-ci ne soit pas significativement diffrente de zro (test unilatral). Linterprtation des corrlogrammes est discute par Legendre & Fortin (1989). En version CMS ou VMS, ce mme programme peut tre employ pour produire une liste de paires d'objets (points) voisins dans une grille rgulire (selon diffrentes stratgie de connexion), une triangulation de Delaunay ou un graphe de Gabriel. Ce fichier LIENS pourra servir par la suite de contrainte aux groupements raliss par les programmes BIOGEO et KMEANS, ou en conjonction avec tout autre programme exigeant une liste de paires d'objets voisins, tel COCOPAN. Dans la version Macintosh, la fonction de fabrication du fichier de LIENS a t spare et se trouve dans le programme CONNEXIONS. Enfin, ce programme peut aussi produire un fichier contenant une matrice triangulaire suprieure de classes de distance entre les objets. Ce fichier, appel CLASSEF par dfaut, est requis par le programme MANTEL pour calculer un corrlogramme multidimensionnel. Fichiers d'entre et de sortie Les questions poses par le programme propos des fichiers d'entre et de sortie sont nombreuses et refltent la multiplicit des options offertes. Lisez-les attentivement avant d'y rpondre. Le programme requiert qu'on lui fournisse des informations quant (a) la valeur que prend la variable en chaque point et (b) la position relative des points. Il existe cinq types de fichiers d'entre pour les versions VMS et CMS. Pour la version Macintosh, le fichier de donnes de type (2) n'est pas permis, car la fonction de fabrication des schmas de connexion et l'criture du fichier de liens ont t transfres au nouveau programme CONNEXIONS. (1) Liste des valeurs (Z) Ce fichier d'entre ne contient que les valeurs de la variable (appele ici Z); il sagit de nombre rels, ou encore dentiers POSITIFS dans le cas dune variable nominale. Dans ce fichier, on peut crire les valeurs l'une la suite de l'autre, spares par un ou plusieurs espaces, suivant l'ordre des points, mais sans noms d'objets ou autres indicateurs; le programme assumera que le premier objet de la liste porte le numro 1. La liste scrit de gauche droite, en lignes successives, comme on lit une page de texte. Si on le dsire, on peut n'inscrire qu'une seule valeur par ligne. Ce fichier de valeurs est le seul type quadmet la version Macintosh; sa longueur est limite 16000 observations. Dans les versions CMS et VMS, on nemploie ce fichier que dans le cas dune grille rgulire de points. Le schma de connexions sera alors choisi par analogie avec le jeu d'checs (voir Legendre & Legendre, 1984a, Tome 2, p. 257-259): mouvement de la tour (liens horizontaux et verticaux), du fou (diagonaux) ou de la reine (combinaison du fou et de la tour). (2) Liste des coordonnes (X, Y) et des valeurs (Z)

En versions CMS et VMS, lorsque les points ne forment pas une grille rgulire, les coordonnes des points sont fournies dans le mme fichier que les valeurs de la variable. Chaque

LE PROGICIEL R

9

ligne de ce fichier doit donc contenir trois informations, comme suit: Coordonne en X Coordonne en Y Valeur de la variable

Les coordonnes sont crites sous la forme de nombres entiers ou rels (avec dcimales) mais pas sous la forme de degrs-minutes-secondes. Elles sont lues en format libre; il n'est donc pas ncessaire de les disposer dans des colonnes prcises. Comme pour les autres programmes CMS et VMS de ce progiciel, il faut crire par exemple 0.376 et non pas .376. Voir p. 6 pour la version Macintosh. (3) Matrice de distances DISTANCES GOGR. Coord. XY ou autres donnes Matrice de similarits

SIMIL

Fich. ASCII de distances

IMPORTEXPORT

Matrice bin. de distances de type SIMIL

CONVERSION

Les positions relatives des objets peuvent tre dcrites sous la forme d'une matrice de distances binaires calcule par SIMIL, ou transfre dun autre programme par IMPORT (versions CMS et VMS) ou par IMPORT-EXPORT (version Macintosh). Le programme assumera qu'il s'agit d'une matrice de distances et non d'une matrice de similarits. Une matrice de similarits peut tre aisment convertie en une matrice de distances l'aide du programme utilitaire CONVERT. Le fichier partir duquel SIMIL calcule la distance euclidienne (D01) doit doit contenir deux informations seulement: Coordonne en X Coordonne en Y

Les coordonnes sont fournies sous la forme de nombres entiers ou de rels (i.e., avec dcimales) et non sous la forme de degrs-minutes-secondes. Ces donnes sont lues en format libre. L'avantage d'un tel fichier est que l'utilisateur peut choisir de calculer une distance autre que la distance gographique (euclidienne) entre objets. Le programme DIST peut aussi tre mis contribution pour calculer des distances suivant la courbure de la terre; ces distances se prsentent sous la forme d'une matrice carre (fichier ASCII) qu'il est ais de convertir en format SIMIL l'aide de l'utilitaire IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh). (4) Matrice de classes de distances entre objets Ce fichier en caractres lisibles (fichier ASCII et non binaire) peut reprsenter toute la matrice des distances dj divises en classes, ou encore la partie triangulaire suprieure seulement de cette matrice de distances, auquel cas elle se prsente de la mme faon que le fichier CLASSEF (type 8) dcrit ci-dessous. Les classes de distance sont numrotes par les entiers successifs, dbutant par 1. Cette matrice est de format n n o n est le nombre de stations. Ce type de fichier permet l'utilisateur qui le dsire de soumettre une matrice qui n'est pas symtrique, c'est--dire une matrice dans laquelle la distance de a b n'est pas ncessairement gale la distance de b a. (5) Liste des liens entre les objets Ce fichier en caractres lisibles (fichier ASCII et non binaire), fournit au programme une liste de

10

LE PROGICIEL R

liens entre paires de points-objets. Chaque lien est reprsent par une paire de numros d'objets, crits en format libre et spars par au moins un espace. Ce fichier, qui peut tre produit par ce mme programme (version CMS/VMS) ou par le programme CONNEXIONS (version Macintosh), peut avoir par exemple l'apparence suivante (grille de 3 lignes et 4 colonnes, mouvement de la tour), o chaque paire de numros reprsente un lien entre deux objets:1 2 11 12 12 8 2 5 3 1 3 6 4 2 5 7 6 3 6 8 7 4 7 9 8 5 9 10 10 6 10 11 11 7

Trois fichiers de sortie peuvent tre crs par ce programme: (6) Fichier des rsultats contenant les statistiques du corrlogramme Par dfaut, ce fichier est appel "SORTIE CORR A" dans la version CMS/VMS. Ce fichier ASCII diffre dans sa prsentation selon que l'analyse porte sur des donnes quantitatives ou qualitatives (nominales). Un exemple pour chacun est donn plus bas. Lors de l'analyse de donnes quantitatives, les indices I de Moran et le c de Geary sont calculs pour chaque classe de distance d (Legendre & Legendre, 1984a, Tome 2, p. 258). I(d) = [n w i j(y i - y-moy)(y j - y-moy)]/[W (y i - y-moy)2 ] c(d) = [(n-1) w i j(y i - y j )2 ]/[2W (y i - y-moy)2 ] pour i j pour i j

Les valeurs de la variable sont les y; y-moy dsigne la moyenne de ces valeurs. Les w i j prennent la valeur 1 quand la paire (i,j) appartient la classe de distance d (celle pour laquelle on est en train de calculer la valeur du coefficient) et zro dans les autres cas. W est la somme des valeurs w i j, donc le nombre de paires dans toute la matrice carre des distances entre points dont on a tenu compte pour calculer la valeur du coefficient pour la classe de distance sous considration. Le coefficient de Moran varie gnralement de -1 1, mais il peut dans certains cas excder -1 ou +1; les valeurs positives du I de Moran correspondent de l'autocorrlation positive. Le coefficient de Gary varie de 0 une valeur positive indtermine qui n'excde que rarement 3 dans la plupart des cas rels; les valeurs de c infrieures 1 correspondent de l'autocorrlation positive. Ces statistiques sont calcules pour chaque classe de distance disponible; chaque valeur est accompagne de la probabilit que celle-ci ne soit pas significativement diffrente de zro (test unilatral). Les formules de calcul de l'erreur type de ces statistiques se trouvent dans Cliff & Ord (1981), Sokal & Oden (1978) et Legendre & Legendre (1984a). Les hypothses sont les suivantes: H0 : il n'y a pas d'autocorrlation spatiale. Les valeurs de la variable sont spatialement indpendantes les unes des autres. Chaque valeur du coefficient I est gale E(I) = -(n - 1) -1 0, o E(I) est l'esprance de I alors que n est le nombre de points d'observation; chaque valeur du coefficient c est gale E(c) = 1. H1 : il y a de l'autocorrlation significative. Les valeurs de la variable sont spatialement dpendantes les unes des autres. La valeur du coefficient I diffre significativement de E(I) = -(n - 1)-1 0; la valeur du coefficient c diffre significativement de E(c) = 1. Tel que recommand par Oden (1984), on pourra employer la correction de Bonferroni pour vrifier si le corrlogramme contient des valeurs significatives. Cette correction consiste employer un niveau de signification alpha' = alpha/(le nombre de tests raliss simultanment); par exemple, un corrlogramme de 5 classes de distance sera globalement significatif au niveau de 5% seulement s'il contient des valeurs significatives au niveau individuel de alpha' = 0.05/5 = 0.01.

LE PROGICIEL R

11

V oici un exemple de fichier de sortie obtenu pour des donnes quantitatives, version Macintosh du programme; la sortie de la version CMS/VMS est virtuellement identique. Le corrlogramme correspondant est publi la figure 3 de Legendre & Troussellier (1988).P R O G R A M M E A u t o C o r r l a t i o n

Version Macintosh 1.0 Auteur: A. Vaudor Matrice de distances: FICHIER D'ENTREE: XY, Thau TITRE: Distances gographiques, Thau (63 stations) DATE: 10/8/88 FONCTION: D01 Nombre d'objets : 63 Nombre de descripteurs : 2 Classes quidistantes Classe Limite sup. Frq. 1 1.00518 97 2 2.01036 162 3 3.01553 250 etc. etc. 17 17.08802 4 Fichier de donnes: CHLAtr Nombre d'objets : 63 Option du mouvement: Matrice SIMIL Notes: Les probabilits sont plus significatives prs de zro. Les probabilits sont donnes plus ou moins 0.00100 H0: H1: Dist.,I(Moran), 1 0.4646 2 0.3833 3 0.3284 4 0.3382 5 0.2251 6 0.0773 7 -0.1109 8 -0.1992 9 -0.3517 10 -0.5869 11 -0.6228 12 -0.8550 13 -0.7459 14 -0.8355 15 -0.6122 16 -0.6631 17 -1.4980 Total I = 0 I > 0 p(H0), 0.000 0.000 0.000 0.000 0.000 0.101 I = 0 I < 0 p(H0), C(Geary), 0.3355 0.4151 0.5352 0.5280 0.6708 0.8055 0.121 1.0151 0.011 1.1111 0.000 1.3626 0.000 1.7343 0.000 1.8906 0.000 2.2102 0.000 2.4051 0.000 2.5375 0.001 2.4070 0.023 2.4416 0.001 3.3191 C = 1 C < 1 p(H0), 0.000 0.000 0.000 0.000 0.000 0.018 C = 1 C > 1 p(H0),Paires 194 324 500 450 484 336 0.373 280 0.085 288 0.000 274 0.000 222 0.000 154 0.000 138 0.000 120 0.000 68 0.000 48 0.003 18 0.002 8 3906

[donnes pour histogramme de frquences des classes, dans la matrice triangulaire des distances]

En colonne 2 se trouve la valeur du I de Moran, et en colonne 5 la valeur du c de Geary, pour les diffrentes classes de distance (colonne 1). Les probabilits des tests unilatraux pour le I de Moran sont prsentes en colonnes 3 et 4; elles sont spares en deux colonnes, selon que la valeur du coefficient est positive ou ngative, de faon en faciliter la lecture. Il en va de mme pour les probabilits associes aux valeurs du c de Geary. Les hypothses (H0 , H 1 ) sont spcifies en haut de

12

LE PROGICIEL R

ces colonnes. Par ailleurs, le nombre de paires de points correspondant chaque classe de distance (cardinalit) forme la colonne de droite. Chaque nombre est le double de la valeur donne dans l'histogramme de frquence; c'est la valeur que l'on obtiendrait si on travaillait dans une matrice carre, diagonale principale exclue, et non dans une matrice triangulaire de distances. Dans la version Macintosh, le programme trace les corrlogrammes l'cran et permet de les imprimer ou de les prserver dans des fichiers de type PICT. Un corrlogramme est un graphique dans lequel on porte les valeurs du coefficient d'autocorrlation spatiale (en ordonne) en fonction des classes de distance (abscisse) (voir par exemple la figure 11.22 de Legendre et Legendre, 1984a). Voir aussi Legendre & Fortin (1989) pour l'interprtation des corrlogrammes spatiaux. Pour les donnes nominales (qualitatives), ou encore pour les donnes ordinales traites comme si elles taient nominales, le programme calcule, pour chaque distance, les carts normaux (S.N.D.: standard normal deviates) ainsi que les probabilits associes, pour chaque classe de distance et chaque paire d'tats de la variable. La thorie relative ces calculs est prsente par Sokal & Oden (1978), par Cliff & Ord (1981) ainsi que par Upton & Fingleton (1985). Voici un exemple de fichier de sortie obtenu pour des donnes nominales 4 classes, obtenu l'aide de la version CMS du programme. Peu de comparaisons sont significatives dans cet exemple.A U T O C O R R E L A T I O N S P A T I A L E

pour donnes quantitatives ou qualitatives. Version IBM 2.0B Auteur: Alain VAUDOR Option du mouvement: 13

NOTE: Les probabilits les plus significatives sont prs de zro Les probabilits sont imprimes la prcision de 0.00100 H0: H1: DISTANCE S.N.D.=0, S.N.D.>0, P(H0) , S.N.D.=0 S.N.D. 0.8 [3][4] -1.523 0.064 [4][4] 3.047 0.004 [Total diff.] -2.821 0.002 2 [1][1] -2.204 [1][2] -1.822 [1][3] -0.246 [1][4] 2.001 0.023 [2][2] 1.510 0.069 [2][3] 1.485 0.069 [2][4] 0.348 0.364 [3][3] CARD. CLASSE [3]/NOBJ < 0.2 ou > 0.007 0.034 0.403

DISTANCE

586

0.8

LE PROGICIEL R

13

[3][4] [4][4] [Total diff.] DISTANCE 3 etc. DISTANCE 4 etc. DISTANCE 5 etc. DISTANCE 6 etc. DISTANCE 7 etc. TOTAL

-2.406 -0.082 -0.056

0.008 0.495 0.478 732

716

544

254

48

3192

(7)

Fichier des liens

Seules les versions CMS et VMS du programme peuvent produire ce fichier, qui est appel "LIENS DATA A" par dfaut. Ce fichier ASCII contient une liste de paires d'objets reconnus comme voisins par le schma de connexion (options 1 13) utilis lors de l'excution du programme. Ce fichier LIENS pourra alors servir de contrainte aux groupements raliss par les programmes BIOGEO et KMEANS, ou en conjonction avec tout autre programme exigeant une liste de paires d'objets voisins, tel COCOPAN. Dans la version Macintosh, ce fichier est produit par le programme CONNEXIONS. Un exemple de ce fichier est illustr en (5) ci-dessus. Il est noter que l'utilisateur peut diter ce fichier ASCII; il peut enlever des liens ou en ajouter, selon les besoins de son tude. (8) Fichier contenant la matrice CLASSEF Ce fichier ASCII est appel "CLASSEF DATA A" par dfaut dans la version CMS/VMS. Il contient la matrice triangulaire suprieure de classes de distance, permettant de calculer par la suite un corrlogramme de Mantel (voir la description du programme MANTEL). Les options du programme Les versions VMS et CMS offrent 16 options de calcul, numrotes de 0 15 (voir l'exemple, plus bas). On ne trouve que les options 0, 14 et 15 dans la version Macintosh. Ces options peuvent tre regroupes dans les cinq catgories suivantes, en fonction des fichiers d'entre dont on dispose. (1) Option 0 Matrice de distances de SIMIL Pour cette option, deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Matrice des distances (fichier de type 3) calcule partir du coefficient de distance qui a t choisi par l'utilisateur (voir le tableau 4 pour la liste des coefficients du programme SIMIL). Pour cette option, il n'est pas ncessaire que les points soient disposs sur un grille rgulire. Le programme pose les questions suivantes l'utilisateur: - Classes quidistantes (0) ou quifrquentes (1) ? Les classes quidistantes sont de mme

14

LE PROGICIEL R

largeur dintervalle de distances; les classes quifrquentes contiennent toutes le mme nombre de paires, sauf dans les cas de donnes lies (distances gales) qui peuvent forcer certaines classes contenir davantage de paires. On ne peut avoir lun ET lautre. - Nombre de classes ? Lusager doit dterminer combien de classes il dsire obtenir. - Dsirez-vous voir l'histogramme ? Un histogramme permet dapprcier la forme de la distribution des distances. - Prfreriez-vous un nombre/type diffrent de classes ? On a ici la possibilit de changer la division en classes en retournant aux deux premires questions. - Dsirez-vous faire crire la matrice CLASSEF des classes de distance, pour le corrlogramme de Mantel ? Voir la description de cette matrice au point (8) ci-dessus. - Dsirez-vous crire la liste des premiers liens sur le fichier "LIENS" ? Voir la description de ce fichier au point (7) ci-dessus. L'usager obtiendra les trois fichiers de sorties dcrits aux points (6), (7) et (8) ci-dessus. Le fichier de sortie CLASSEF n'est disponible qu' partir de cette option 0. Liste des liens

Liste des valeurs (Z) AUTOCOR Matrice de distances

Fichier des rsultats Liste des classes de distances

(2) Options 1 11 Grille rgulire Ces options ne peuvent tre utilises que pour des points disposs selon une grille rgulire; un seul fichier d'entre est ncessaire: la Liste des valeurs (fichier de type 1). Ces options font rfrence pour la plupart des types de connexion qui dcrivent les mouvements du jeu d'checs (rf : Legendre & Legendre, 1984, Tome 2, pp. 257-259), sauf pour ce qui est du calcul de la distance euclidienne entre les points de la grille. Le programme demandera quelle est la largeur et la hauteur de la grille quil devra confectionner. La distance entre deux points est le nombre minimum de liens qui les sparent. L'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7). Liste des liens Liste des valeurs (Z) AUTOCOR Fichier des rsultats

LE PROGICIEL R

15

(3) Options 12 et 13 Points disposs de faon irrgulire Pour ces options, un seul fichier d'entre est ncessaire, soit la Liste des coordonnes et des valeurs (fichier de type 2). Les connexions entre points sont alors calcules selon le graphique de Gabriel avec l'option 12 (Gabriel & Sokal, 1969) ou le systme de triangulation de Delaunay avec l'option 13 (Dirichlet, 1850; Miles, 1970; Ripley, 1981; Watson, 1981; Upton & Fingleton, 1985; Isaaks & Srivastava, 1989). Voir le programme CONNEXIONS pour une description dtaille de ces mthodes. La distance entre deux points est calcule par le nombre minimum de liens qui les sparent. Dans la triangulation de Delaunay (option 13), il y a deux faons dimposer des contraintes la formation de la triangulation plane. Voir la section portant sur la triangulation de Delaunay dans la description du programme CONNEXIONS. Rappelons quune contrainte est un ensemble de points supplmentaires, disposs la priphrie des points-objets rels de ltude. Dans la solution finale, tous les liens qui impliquent ces points supplmentaires sont limins; les points supplmentaires ont cependant, entre-temps, empch la formation de longs liens entre les points priphriques du nuage de points, liens qui ne reprsentent pas des affinits relles dans le cas des points priphriques distants mais sont simplement un effet de bordure de l'chantillonnage ralis. Deux mthodes sont disponibles dans le programme AUTOCOR pour imposer de telles contraintes la formation de la triangulation. La question pose par le programme est la suivante:Nombre de points de contrainte? (-1 = contrainte rectangulaire)

1) Si on ne dsire pas imposer de contrainte, on rpond 0. 2) Si on dsire imposer des contraintes rectangulaires, il n'est pas ncessaire de dcrire ce cadre explicitement; il suffit de rpondre -1. Quatre points supplmentaires sont alors gnrs par le programme. Voir la description la section portant sur la triangulation de Delaunay dans la description du programme CONNEXIONS. 3) Si lusager dsire imposer des "contraintes" en des endroits quil a lui-mme judicieusement choisis, celles-ci doivent tre dcrites la fin du fichier contenant la Liste des coordonnes et des valeurs. Chaque contrainte se prsente sous la forme des coordonnes en X et en Y des deux points extrmes du segment de droite formant la "contrainte"; donc, chaque "contrainte" est reprsente par quatre chiffres: X 1 Y1 X2 Y2 . Le programme calcule alors les coordonnes du point milieu de ce segment et lutilise comme contrainte dans les calculs subsquents. En rponse la question, on indique le nombre de telles contraintes fournies au programme dans le fichier. Cette faon de faire diffre de la procdure dcrite dans le programme CONNEXIONS. L'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7). Liste des liens XYZ AUTOCOR Fichier des rsultats (4) Option 14 Votre propre matrice de classes de distance Deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Matrice des classes de distance (fichier de type 4). La connexion entre les objets sera telle que dcrite dans la matrice des classes de distance. Il n'est pas ncessaire que les points forment une grille rgulire. En

16

LE PROGICIEL R

sortie, l'usager peut obtenir le fichier des rsultats (fichier de type 6) et le fichier des liens (type 7).

Liste des valeurs (Z) AUTOCOR Matrice de distances

Liste des liens

Fichier des rsultats

(5) Option 15 Votre propre liste de liens Pour cette option, deux fichiers d'entre sont ncessaires: la Liste des valeurs (fichier de type 1) et la Liste des liens (fichier de type 5). La connexion entre les objets sera telle que dcrite dans la liste des liens. Il n'est pas ncessaire que les points forment une grille rgulire. La distance entre deux points est mesure par le nombre minimum de liens qui les sparent. L'usager ne pourra obtenir en sortie que le fichier des rsultats (de type 6). Liste des valeurs (Z) AUTOCOR Liste des liens Les questions du programme Lexemple ci-dessous montre le dialogue que propose le programme en version CMS/VMS; les rponses donnes par l'usager sont soulignes et en caractre gras. Les questions poses par la version Macintosh sont essentiellement les mmes, quoique leur formulation pourra parfois diffrer lgrement. Les explications qui suivent correspondent aux numros en marge gauche de lexemple. (1) L'usager dclare d'abord que ses donnes ne sont pas nominales. (2) Entre les points d'observation, une triangulation de Delaunay sera calcule (option 13); la distance entre les points est le nombre de liens formant le plus court chemin entre deux points, en suivant les liens de la triangulation. (3) Il y a 57 points dans le fichier l'tude. Si on avait dcrit une contrainte par une liste de points supplmentaires, ces points ne seraient pas compts en rponse cette question. (4) On opte pour une "contrainte" rectangulaire (voir ci-dessus). (5) Dans le cas d'une grille rgulire ou partiellement rgulire, il pourra arriver que deux solutions soient totalement quivalentes et que deux traits se croisent. L'usager pourra dcider soit de garder ces deux traits quivalents, soit d'liminer l'un des deux. Une telle situation ne peut se produire avec l'algorithme mis en oeuvre dans la version Macintosh (programme CONNEXIONS). (6) L'utilisateur demande que la liste des liens soit inscrite dans le fichier LIENS, pour usage ultrieur. Fichier des rsultats

LE PROGICIEL R

17

ExempleAnalyse de l'AUTOCORRELATION SPATIALE. Pour toutes les options sauf 12 et 13, vous aurez besoin d'un fichier de VALEURS. Pour les options 12 et 13, vous aurez besoin d'un fichier de COORDONNEES contenant aussi, en troisieme position, les VALEURS de la variable. Pour l'option 13 (Delaunay), si vous desirez imposer des segments de contrainte, ceux-ci doivent apparaitre dans ce meme fichier, a la fin de la liste des points-objets, sous la forme de 2 points (4 coordonnees) decrivant chaque segment. Quel est le nom de ce fichier? (Par defaut: "... data a") *** Vous DEVEZ fournir un fichier de donnees, meme si vous *** ne desirez que la liste des liens et n'etes pas interesse *** au correlogramme. fichier data a Pour l'option 0, vous aurez besoin d'une matrice binaire de DISTANCES, produite par SIMIL ou IMPORT. Assurez-vous qu'il ne s'agit PAS d'une matrice de similarites. Quel est le nom du fichier contenant cette matrice s'il y a lieu? (Par defaut: "... data a")

Pour l'option 14, quel est le nom de la matrice de classes de distance, s'il y a lieu (carree ou triangulaire superieure) ? (Par defaut: "... data a")

Pour l'option 15, quel est le nom du fichier de liens que vous avez prepare, s'il y a lieu? (Par defaut: "... data a")

Quel nom desirez-vous donner au fichier de sortie, contenant le correlogramme? (Par defaut: "Sortie corr a")

Quel nom desirez-vous donner au fichier de LIENS produit par ce programme, s'il y a lieu? (Par defaut: "Liens data a")

Quel nom desirez-vous donner au fichier contenant la matrice CLASSEF (matrice triangulaire superieure de classes de distance, permettant de calculer par la suite un correlogramme de Mantel), s'il y a lieu ? (Par defaut: "Classef data a")

18

LE PROGICIEL R

A U T O C O R R E L A T I O N

S P A T I A L E

pour donnees quantitatives ou qualitatives. Version IBM 2.0B Auteur: Alain VAUDOR Votre fichier de donnees est-il deja en classes ? Autrement dit, desirez-vous analyser des DONNEES QUALITATIVES ? n OPTIONS: 0: Matrice de distances de SIMIL (Fichier "ENTREEB") MOVEMENTS DANS UNE SEULE DIRECTION: 1: Mouvement horizontal (Lignes) 2: Mouvement vertical (Colonnes) 3: Mouvement diagonal (pente positive) 4: Mouvement diagonal (pente negative) JEU 5: 6: 7: JEU 8: 9: 10: D'ECHECS, Mouvement Mouvement Mouvement D'ECHECS, Mouvement Mouvement Mouvement MOUVEMENTS DIRECT SEULEMENT: de la tour du fou de la reine MOUVEMENTS DIRECTS ET INDIRECTS: de la tour du fou de la reine

(1)

11: Distance euclidienne, points en grille reguliere POINTS DISPOSES DE FACON IRREGULIERE: 12: Graphique de Gabriel 13: Triangulation de Delaunay 14: Votre propre matrice de classes de distance 15: Votre propre liste de liens (attacher fichier "LIENS") (2) 13 Nombre total de points ? 57 Nombre de points de contrainte? (-1 = contrainte rectangulaire) -1 Elimination des traits qui se coupent? o Desirez-vous ecrire la liste des premiers liens sur le fichier "LIENS" ? o *** 312 liens ont ete ecrits sur le fichier de LIENS *** Fin du programme.

(3)

(4)

(5)

(6)

LE PROGICIEL R

19

BIOGOQue fait BIOGO ? Ce programme calcule un groupement agglomratif avec contrainte de contigut spatiale, tel que propos par Legendre & Legendre (1984b), et prsente les rsultats sous forme d'une srie de cartes, une pour chaque niveau de groupement. Puisque le groupement est bas sur une matrice de similarits et que cette matrice est le plus souvent calcule partir d'un grand nombre de descripteurs, cette mthode peut donc tre considre comme une mthode de cartographie multidimensionnelle. Le groupement agglomratif procde selon un algorithme liaison proportionnelle; un autre programme de ce progiciel, K-MEANS, permet de raliser du groupement sous contrainte laide dun algorithme non-hirarchique. La connexit est fixe par lusager entre 0 (groupement liens simples) et 1 (groupement liens complets). Legendre (1987) a montr la stabilit des rsultats du groupement avec contrainte travers une large gamme de valeurs de connexit. Si les dimensions actuelles du programme (version CMS ou VMS) sont insuffisantes, celles-ci peuvent aisment tre modifies en changeant la valeur des paramtres en dbut de programme et en le recompilant. Tel est galement le cas de tous les autres programmes de ce progiciel. Dans la version Macintosh, une limite du programme impose de ne jamais avoir plus de 150 groupes simultanment. Des problmes comportant plus de 1000 objets ont t traits par ce programme; il peut tre ncessaire, dans de tels cas, de demander plus de mmoire que la quantit attribue par dfaut aux usagers. Fichiers d'entre et de sortie Matrice de similarits (type SIMIL) Liste des liens (1) Fichier de similarits Le fichier de similarits produit par les programmes SIMIL, IMPORT (versions CMS et VMS) ou IMPORT-EXPORT (version Macintosh), qui dcrit les relations de ressemblance entre points, est toujours ncessaire ce programme. Une matrice de distances devra tre convertie en matrice de similarits par le programme CONVERSION avant d'tre utilisable par BIOGO. (2) Fichier de liens Les relations spatiales entre les points doivent tre fournies au programme sous la forme dune liste de liens (fichier LIENS, en ASCII et non en binaire). Chaque lien est reprsent par une paire de numros d'objets, crits en format libre et spars par au moins un espace. Ce fichier, qui peut tre produit par les programmes AUTOCOR (version CMS/VMS) ou CONNEXIONS (version Macintosh), peut avoir par exemple l'apparence suivante (grille de 12 points disposs en 3 lignes et 4 colonnes, mouvement de la tour), o chaque paire de numros reprsente un lien entre deux objets:1 2 11 12 12 8 2 5 3 1 3 6 4 2 5 7 6 3 6 8 7 4 7 9 8 5 9 10 10 6 10 11 11 7

BIOGO

Dtails du groupement

Coordonnes X, Y

Cartes

20

LE PROGICIEL R

Ce fichier peut tre modifi laide dun diteur ASCII si on dsire ajouter ou retrancher des liens de la liste. Le fichier peut galement tre entirement crit laide de lditeur; on peut ainsi, par exemple, fournir la liste des premiers ET des deuximes voisins de chaque point, ou toute autre combinaison juge intressante en fonction de la problmatique de ltude. Si la liste inclut toutes les paires possibles de points-objets, le groupement devient sans contrainte; cette option est disponible dans la version Macintosh. Il peut tre intressant dutiliser BIOGEO de cette faon, puisquon peut ainsi obtenir une carte pour chaque tape du groupement. Avant de faire dmarrer le programme, assurez-vous que vous connaissez le nombre de liens (paires de points) qui doivent tre lus par le programme dans le fichier de LIENS. Suggestion: intgrez ce nombre au nom du fichier. (3) Fichier de coordonnes spatiales (X, Y) Si on dsire demander au programme de tracer les cartes correspondant chaque niveau de groupement (option du programme), il faut lui fournir un fichier contenant les coordonnes des points analyser. C'est partir de ces coordonnes que la position des points sera tablie sur ces cartes. Les coordonnes sont fournies en format lisible (non en binaire) sous la forme d'entiers ou de nombres rels en degrs dcimaux. Les coordonnes ne doivent pas tre en degrs-minutes-secondes. Le nombre de coordonnes dans ce fichier doit correspondre au nombre d'objets. Avec les versions CMS et VMS, noubliez pas de mettre un zro avant le point dcimal (0.376 et non pas .376). Pour certaines reprsentations didactiques, on pourra fournir dans ce fichier des coordonnes qui ne correspondent pas exactement aux positions gographiques. Par exemple, pour analyser dun seul bloc des chantillonnages rpts dun mme territoire au cours du temps, on pourra prvoir la position des objets de ltude de faon ce que chaque tranche de temps forme une partie spare de limage finale. Les coordonnes fournies dans ce fichier ne servent qu lillustration; les relations spatiales ou spatio-temporelles qui sont tenues en compte lors du groupement sont uniquement celles que contient le fichier de liens. (4) Fichier des similarits tries Dans les versions CMS et VMS, il est possible de conserver le fichier des similarits tries pour un calcul subsquent. Cette option est particulirement intressante lorsquon dsire tudier les rsultats obtenus avec plusieurs valeurs diffrentes de connexit, alors que la matrice de similarit est grande et donc longue trier. (5) Fichier de rsultats En versions CMS et VMS, la seule sortie de BIOGO est le fichier de rsultats contenant les dtails du groupement et les cartes. Le nombre de cartes disponibles correspond au nombre d'tapes du groupement, soit n - 1. L'usager peut cependant prfrer ne pas faire inscrire toutes les cartes dans le fichier, les premires cartes, qui correspondent des niveaux levs de similarit, tant souvent peu informatives; on peut donc indiquer combien des dernires cartes on dsire obtenir dans le fichier de rsultats. Voir la section Contenu du fichier de rsultats pour plus de dtails sur le fichier de sortie. Dans la version Macintosh, la fonction cartographique est spare du fichier dtaillant les rsultats du groupement. Le fichier contenant le dtail des tapes de groupement est optionnel. Par ailleurs, si on dsire obtenir les cartes, celles-ci sont prsentes lcran une une. Lusager peut choisir la carte dsire soit par son niveau de similarit, soit laide dun curseur qui indique le nombre de groupes obtenu chaque niveau de similarit (le dbut du groupement, et donc les similarits leves, sont au bas de lcran); on fixe la position du curseur un niveau de similarit donn, connaissant le nombre de groupes prsents ce niveau, et on clique la souris. Voir galement les autres options dans le menu droulant Choix de cartes du programme. Notez que plusieurs

LE PROGICIEL R

21

tant illustr par une carte spare. Sur la carte qui apparat lcran, les membres dun mme groupe sont entours dun trait formant une enveloppe, si la situation le permet; les enveloppes peuvent tre prolonges par des traits dendritiques au besoin. Si on nest pas certain de la sparation des groupes dans une portion de limage, on peut agrandir nimporte quelle partie de celle-ci en traant un rectangle autour de ladite portion laide de la souris. Une nouvelle section de la partie agrandie peut son tour tre agrandie; la commande Terminer du menu droulant permet de revenir la carte prcdente. Lusager pourra demander dimprimer les cartes de son choix ou de les conserver dans des fichiers de type PICT; les cartes sont identifies par un titre et un niveau de similarit de groupement. Les options du programme Les options du programme sont les suivantes. Les numros se rfrent aux numros en marge gauche de lexemple ci-dessous. - Le choix du niveau de connexit (Co) du groupement agglomratif liaison proportionnelle (4). - La possibilit dobtenir les cartes, ou non (2 et 5). - La possibilit, en version Macintosh, dobtenir ou non le dtail des groupes forms chaque niveau. - La possibilit, en versions VMS et CMS, de conserver le fichier des similarits tries (1 et 3). Exemple Lexemple ci-dessous illustre lutilisation du programme pour calculer un groupement sous contrainte de contigut spatiale. Le fichier dappel, dont le dialogue forme la premire partie de lexemple, demande le nom des divers fichiers. Cet exemple a t ralis sous CMS. Les questions poses par la version Macintosh sont essentiellement les mmes, quoique leur formulation peut parfois diffrer lgrement. Le premier point signaler concerne le fichier des similarits tries (1): on donne un nom en rponse cette question si on dsire conserver le fichier tri, ou encore si, ayant conserv un tel fichier au cours dune passe prcdente, on dsire maintenant lutiliser (auquel cas il faut galement rpondre oui en (3) en rponse la question du programme). Le second point est que le fichier des coordonnes est optionnel (2); il nest requis que si lon dsire les cartes que ce programme peut produire (auquel cas il faut galement rpondre oui en (5) la question du programme). Pour le traage des cartes en versions CMS et VMS, la premire colonne du fichier de coordonnes sera labscisse (valeurs croissantes de gauche droite) et la seconde colonne lordonne (valeurs croissantes du bas vers le haut); lusager doit dterminer quelle largeur aura sa carte, en rponse la question (6). En version Macintosh, la coordonne prsentant la plus grande plage de variation est toujours labscisse, avec rotation de limage au besoin de faon occuper lcran au mieux.BIOGEO: Groupement sous contrainte de contiguite spatiale. Quel est le nom du fichier contenant la matrice de SIMILARITES de type SIMIL? (Par defaut: "... data a") (Il faut fournir ce fichier meme si vous fournissez un fichier de similarites triees, en reponse a la question suivante.) fichier s16 a (1) Desirez-vous conserver le fichier de similarites triees pour utilisation future? Ou encore, possedez-vous deja ce fichier? Dans l'un ou l'autre cas, quel est son nom? (Par defaut: "FICHTRI data a") fichier fichtri a Quel est le nom du fichier contenant la liste des LIENS DE

22

LE PROGICIEL R

PROXIMITE a employer comme contrainte du groupement? (Par defaut: "... data a") fichier liens146 a (2) Quel est le nom du fichier des COORDONNEES des localites, s'il y a lieu? (Par defaut: "... data a") fichier coord a Quel nom doit recevoir le fichier de sortie de BIOGEO? (Par defaut: "CARTES BIOGEO a") fichier cartes a P r o g r a m m e Auteur: A. Vaudor (3) n Titre de ce travail Groupement sous contrainte spatiale Nombre de paires dans le fichier de liens? 146 Connexite desiree (Max: quatre chiffres significatifs) 1.0 Il y a 56 etapes de groupement. Combien des dernieres etapes vous interessent? 20 Desirez-vous les cartes? (O ou N) o Largeur des cartes (en caracteres, sans compter le cadre): 60 Fin du programme. Avez-vous fourni un fichier de similarites deja triees (FICHTRI) ? (O ou N) B I O G E O

(4)

(5) (6)

Contenu du fichier de rsultats Le fichier prsent ci-dessous est une sortie du programme en version CMS. Pour chaque niveau de groupement, les cartes ont t demandes, en plus du dtail du groupement. La connexit du groupement liaison proportionnelle a t fixe Co = 1.0. Les relations de voisinage spatial entre les points, dcrites par le fichier des liens, sont les suivantes (image produite par CONNEXIONS):

LE PROGICIEL R

23

B I O G E O : Groupement sous contrainte spatiale Auteur: A. Vaudor Niveau: Connexit: Nombre de groupes: 1.00000 1.00000 9

Dans la liste des 57 objets, ci-dessous, chaque objet est identifi par le numro de son groupe. Les numros de groupes ne sont pas ncessairement squentiels. Les objets non encore groups reoivent un zro.16 2 13 16 2 12

1 0 0 1 1 0 1 1 1 5 5 0 5 1 1 16 1 0 1 1 1 1 1 0 2 2 2 2 2 2 2 6 2 6 6 0 4 4 4 4 0 0 4 12 12 0 13 13 15 15 13 Nombre de localites groupes: 47 -------------------------------------------------------------! 1 ! ! ! ! 1 ! ! + 2 2 1 ! ! % 2 1 1 1 ! ! % % 1 1 1 ! ! * 2 2 1 ! ! * * 4 2 2 1 5 5 ! !+ 4 4 6 1 5 ! ! * 4 62 2 = = = 1 1 ! ! 4 6 2 ! --------------------------------------------------------------

Aprs le no 9, les symboles utiliss dans la carte nont plus de rapport avec le numro du groupe.Niveau: Connexit: Nombre de groupes: 0.12500 1.00000 4 1 2 4 1 2 2

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 4 2 4 4 4 4 4 4 4 3 3 4 2 2 2 4 4 2 2 4 Nombre de localites groupes: 57 -------------------------------------------------------------! 1 ! ! 1 ! ! 1 1 ! ! 2 2 2 1 1 ! ! 2 2 1 1 1 1 ! ! 2 22 1 1 1 ! ! 4 2 2 1 ! ! 4 4 34 2 2 1 1 1 ! !2 4 3 4 4 1 1 1 1 ! ! 4 4 42 2 1 1 1 1 1 ! ! 4 4 4 2 ! --------------------------------------------------------------

Les cartes produites par la version Macintosh sont de meilleure qualit graphique (voir section K-MEANS). Les objets y sont reprsents par leur numro dordre dans le fichier dentre. Les groupes sont matrialiss par des enveloppes entourant les points membres dun mme groupe.

24

LE PROGICIEL R

CHRONOQue fait CHRONO ? Ce programme calcule le groupement chronologique propos par Legendre, Dallot & Legendre (1985). Cette mthode de groupement, d'abord dcrite pour les sries temporelles de donnes multivariables, peut aussi tre employe pour l'analyse des sries spatiales (Galzin & Legendre, 1987). Le groupement non-hirarchique procde selon un algorithme agglomratif liaison proportionnelle, dont le degr de connexit (Co) est fix par l'usager en rponse une question du programme; cest le test de signification, dcrit au paragraphe suivant, qui rend le rsultat nonhirarchique. La contrainte de contigut temporelle ou spatiale impose au groupement signifie que seuls les objets ou les groupes d'objets adjacents le long de la srie peuvent se grouper. Fait noter, il est peu probable que de changer la connexit change de faon notoire les rsultats du groupement, comme on peut le voir dans les exemples de la publication de Legendre, Dallot & Legendre (1985). chaque tape du groupement agglomratif, un test par permutation est ralis pour dcider si on doit, ou non, fusionner les deux groupes dont la fusion est propose par l'algorithme agglomratif. L'hypothse nulle de ce test est dcrite explicitement dans la liste de sortie des versions CMS et VMS:H est la probabilite que l'hypothese principale soit vraie. Selon celle-ci, les deux groupes soumis au test sont un artefact et devraient etre fusionnes en un seul groupe. La fusion est accomplie si H est plus eleve que le seuil de probabilite ALPHA etabli plus haut par l'usager.

En rponse une question du programme, l'usager doit fixer lui-mme le niveau alpha de rejet de l'hypothse nulle (souvent 0.01, 0.05 ou 0.10; il est cependant possible de tester un niveau plus lev pour identifier les singletons voir ci-dessous, ainsi que lexemple). Il faut raliser quil ne sagit pas dun vritable test dhypothse statistique, les donnes servant au test tant les mmes que celles qui ont servi gnrer lhypothse de division en groupes. Des simulations, dcrites dans la rfrence principale, ont cependant montr que pour des donnes alatoires, la probabilit que ce test produise un rsultat significatif est bien gal alpha. Le programme permet didentifier les singletons, ou prlvements aberrants se trouvant le long de la srie. La prsence dun singleton peut empcher la formation dun groupe qui aurait inclus des objets situs de part et dautre du prlvement aberrant. Trois raisons au moins peuvent entraner la formation de prlvements aberrants: (1) des vnements alatoires, tels que des strates modifies dans une carotte de sdiments, ou encore des mouvements de masses deau lors dun chantillonnage rpt au cours du temps une station fixe en milieu aquatique; (2) des problmes dchantillonnage ou de prservation des chantillons; (3) des variations stochastiques extrmes, qui font que lhypothse nulle sera rejete alors quil ny a pas eu brisure dans la succession (erreur de type II). Si lusager demande didentifier les singletons, ceux-ci seront limins de la srie et le groupement sera repris depuis le dpart (voir lexemple); font exception cette rgle les singletons situs en bout de srie (dbut ou fin), puisque aucun groupe nest bloqu par leur prsence. Il est peu probable que lon russisse identifier des singletons si le niveau alpha est faible (moins de 10 %), parce quil devient difficile, lors du test dun seul objet contre p objets, dobtenir une valeur infrieure celles de la premire colonne du tableau 1. Enfin, si un objet a une similarit de zro avec tous ses voisins immdiats, le groupement agglomratif ne se rend pas jusquau niveau S = 0 pour tenter de linclure dans un groupe; un tel objet non group est reprsent par un tiret (-) dans le groupement final, ou encore par un carr blanc dans le dessin de la version Macintosh. Lusager devra vrifier les donnes de tout objet ainsi identifi; il est recommand de lliminer de lanalyse, sil sagit dun objet aberrant ou exceptionnel ayant une similarit nulle avec ses voisins, au cas o sa prsence dans la srie ait interrompu la formation dun groupe englobant des objets situs de part et dautre.

LE PROGICIEL R

25

Tableau 1 Les plus faibles probabilits de fusion possibles pour deux groupes de taille p 1 et p2 respectivement (except dans des cas dgalit des valeurs de similarit). Tir de Legendre et al. (1985), Tableau C1. ________________________________________________________________________________ p1 ______________________________________________________________________ p2 1 2 3 4 5 ________________________________________________________________________________ 2 0.66667 0.33333 3 0.25000 0.10000 0.10000 4 0.20000 0.06667 0.02857 0.02857 5 0.16667 0.04762 0.01786 0.00794 0.00794 6 0.14286 0.03571 0.01190 0.00476 0.00217 7 0.12500 0.02778 0.00833 0.00303 0.00126 8 0.11111 0.02222 0.00666 0.00202 0.00078 9 0.10000 0.01818 0.00455 0.00140 0.00050 10 0.09091 0.01515 0.00350 0.00100 0.00033 11 0.08333 0.01282 0.00275 0.00073 0.00023 12 0.07692 0.01099 0.00220 0.00055 0.00016 13 0.07143 0.00952 0.00179 0.00042 0.00012 14 0.06667 0.00833 0.00147 0.00033 0.00009 15 0.06250 0.00735 0.00123 0.00026 0.00006 16 0.05882 0.00654 0.00103 0.00021 0.00005 17 0.05556 0.00585 0.00088 0.00017 0.00004 18 0.05263 0.00526 0.00075 0.00014 0.00003 19 0.05000 0.00476 0.00065 0.00011 0.00002 20 0.04762 0.00433 0.00056 0.00009 0.00002 ________________________________________________________________________________ Fichiers d'entre et de sortie

Matrice de similarits (type SIMIL) (1) Le fichier d'entre

CHRONO

Fichier de rsultats

Le fichier d'entre doit imprativement tre un fichier de similarits, et NON PAS de distances, produit par le programme SIMIL, ou encore par IMPORT (en versions CMS et VMS) ou IMPORTEXPORT (en version Macintosh). Une matrice de distances peut tre aisment convertie en une matrice de similarits l'aide de lutilitaire CONVERSION (CONVERT en version VMS/CMS). Le programme assume que lordre chronologique ou temporel est le mme que lordre des objets. (2) Les rsultats Les rsultats du calcul, qui sont prsents lcran (versions CMS et VMS) ou la fois dans un fichier et lcran (version Macintosh), montrent d'abord le groupement. Quoique la mthode pour y arriver soit hirarchique, le rsultat final est non-hirarchique. Ce rsultat est illustr par le dessin lcran dans la version Macintosh. Il est galement prsent la dernire ligne de la liste illustrant les tapes du groupement ( lcran pour les versions CMS et VMS; dans un fichier pour la version

26

LE PROGICIEL R

Macintosh); les lignes qui prcdent, peu informatives, ne sont prsentes que pour indiquer l'usager que le programme est en train de travailler pour lui. Seule la dernire ligne de cette liste est donc conserver et reproduire dans les publications. Des tests a posteriori peuvent tre raliss, qui permettent de procder l'expansion de chaque groupe tour de rle, en supposant que les autres groupes nexistent pas et que leurs objets sont encore des points-observations isols; cette expansion des groupes permet de dterminer si les groupes forms lors du groupement sont spars de faon brusque les uns des autres (succession par sauts), ou si au contraire la transition entre eux est douce (succession graduelle). Dautres tests a posteriori permettent de connatre les relations entre groupes distants et de dterminer si certains seraient semblables (on se rfrera lhypothse nulle pour comprendre dans quel sens interprter ces tests; voir aussi lexemple ci-dessous). Le programme fait de mme avec les singletons, tentant de dterminer sils ressemblent lun ou lautre des groupes distants. Dans ces tests a posteriori, plusieurs fusions entre petits groupes seront ralises simplement cause du fait quil est impossible aux tests de prendre des valeurs de probabilits infrieures aux valeurs minimales dcrites au tableau 1 spcialement si le seuil alpha fix en dbut de groupement est faible. On notera que les tests a posteriori, et en particulier lexpansion des groupes, sont coteux en temps de calcul. On ne les ralise habituellement pas au cours des analyses exploratoires dun fichier de donnes; on attendra plutt que la combinaison la plus informative des paramtres du programme (connexit et niveau alpha) ait t dtermine. Dans les versions pour grands ordinateurs, si on dsire conserver ces rsultats et les faire imprimer, il faut les faire inscrire dans un fichier de "trace de la console" (version CMS) tel qu'expliqu la page 2 du prsent document. Les options du programme Les options du programme sont les suivantes. Les numros se rfrent aux numros en marge gauche de lexemple ci-dessous. - Le choix du niveau de connexit (Co) du groupement agglomratif liaison proportionnelle (1). - Le choix du niveau de signification alpha du test par permutation (2). - La possibilit dliminer les singletons (3). - Les tests a posteriori: expansion des groupes (4), tests entre les groupes distants (5). Exemple Lexemple ci-dessous illustre lutilisation du programme pour calculer un groupement sous contrainte de contigut en une dimension (spatiale, dans ce cas). Le fichier de donnes reprsente un transect spatial (i.e., une radiale) de 24 stations o 41 espces ont t identifies. Le coefficient de similarit de Steinhaus (S17) a t employ pour comparer les stations. Dans cet exemple ralis sous CMS, le dialogue du fichier dappel demande seulement le nom du fichier contenant la matrice de similarit. En version Macintosh, le dialogue demande galement le nom du fichier de sortie. La dernire ligne du groupement (6), qui seule reprsente linformation conserver, se lit comme suit. Les 24 stations dchantillonnage du transect sont reprsentes par autant de caractres:AABBBB*BBCC-DDDDDDEEEEEE S: 0.26667 H: 0.30000

La premire station se trouve lextrmit gauche. Les groupes forms sont reprsents par des lettres; ainsi, dans cet exemple, il y a cinq groupes forms, reprsents par les lettres A E. Les stations non groupes sont reprsentes par des tirets (-) et les singletons par des astrisques (*); la diffrence rside en ce que les singletons ont t dment tests par rapport aux groupes situs leur gauche et

LE PROGICIEL R

27

section Que fait CHRONO?, ainsi que ci-dessous). La valeur qui suit S reprsente le niveau de similarit auquel sest effectue la dernire fusion, la valeur qui suit H reprsentant la probabilit de lhypothse nulle ayant conduit cette fusion. La version Macintosh produit limage suivante qui rsume le groupement; le programme permet dinscrire cette image directement sur un fichier de type PICT, ce qui permet de lditer et de linclure directement dans une publication. Dans cette image, les groupes successifs sont reprsents par des zones alternes de gris et de noir. Lobjet 7, reprsent par un carr blanc barr, est un singleton; celuici se distingue de lobjet 12, qui forme un groupe dun seul prlvement et reprsente un cas spcial. La diffrence rside dans le fait que lobjet 12 prsente des similarits de zro avec ses voisins immdiats; puisque le groupement sarrte avant le niveau de similarit S = 0, cet objet nest jamais group, et il se retrouve donc seul; comme il nest pas test non plus, il nest donc pas identifi comme singleton. De tels objets peuvent, par leur prsence dans une srie, interrompre la formation de groupes; lorsquil sen trouve dans une analyse, on doit se demander sil ne sagirait pas dobjets aberrants un titre ou un autre, auquel cas ils doivent tre limins de ltude. Transect spatial10 20

GROUPEMENT Connexit: 0.50000

CHRONO (avec contrainte) Fichier/s17

Fichier de similarits Probabilit: 0.20000

On pourrait galement reprsenter les objets dans un espace rduit (analyse des correspondances, analyse en coordonnes principales de la matrice S17, cadrage multidimensionnel non-mtrique, etc.) et relier par des traits les stations membres dun mme groupe.Quel est le nom du fichier contenant la MATRICE DE SIMILARITES? (Par defaut: "... data a") fichier s17 a Execution begins... Execution begins... G R O U P E M E N T

Annonce le dbut de lexcution du programme de tri Annonce le dbut de lexcution du programme de groupementC H R O N O L O G I Q U E

DEPARTEMENT DE SCIENCES BIOLOGIQUES UNIVERSITE DE MONTREAL C. P. 6128, SUCC "A" MONTREAL, QUEBEC H3C 3J7. Reference decrivant la methode: Legendre, P., S. Dallot, and L. Legendre. 1985 -Succession of species within a community: chronological clustering, with applications to marine and freshwater zooplankton. The American Naturalist, 125 (2): 257-288. (1) CONNEXITE DU GROUPEMENT ?

28

LE PROGICIEL R

0.5 Connexite: (2)

0.50

NIVEAU ALPHA POUR LE TEST DE FUSION DES GROUPES ? 0.20 Niveau de fusion des groupes (ALPHA): 0.20000 ELIMINATION DES OBJETS ABERRANTS (O ou N) ? n Pas delimination des objets aberrants. LARGEUR DE VOTRE TERMINAL, EN N. DE COLONNES? 80 La largeur habituelle dun

(3)

cran est de 80 ou 132 caractres

(4,5) DESIREZ-VOUS LES TESTS A POSTERIORI (O ou N) ? o H est la probabilite que l'hypothese principale soit vraie. Selon celle-ci, les deux groupes soumis au test sont un artefact et devraient etre fusionnes en un seul groupe. La fusion est accomplie si H est plus eleve que le seuil de probabilite ALPHA etabli plus haut par l'usager. ------------------AA---S: 0.84615 ----------------AABB---S: 0.84211 AA--------------BBCC---S: 0.81818 AA--------------BBCCC--S: 0.81481 H: 0.66667 AABB------------CCDDD--S: 0.71429 AABB-----------CCCDDD--S: 0.66667 H: 0.66667 AABBB----------CCCDDD--S: 0.53333 H: 0.66667 AABBBB---------CCCDDD--S: 0.53333 H: 1.00000 AABBBB-------CCDDDEEE--S: 0.50000 AABBBB------CCCDDDEEE--S: 0.50000 H: 0.66667 AABBBB---CC-DDDEEEFFF--S: 0.44444 AABBBB---CC-DDDDDDEEE--S: 0.42105 H: 0.40000 AABBBB-CCDD-EEEEEEFFF--S: 0.40000 AABBBB-CCCC-DDDDDDEEE--S: 0.30769 H: 0.33333 AABBBB-CCCC-DDDDDDEEEFFS: 0.30000 AABBBB-CCCC-DDDDDDEEEFFF S: 0.28571 H: 0.66667 AABBBB-CCCC-DDDDDDEEEEEE S: 0.26667 H: 0.30000 L'OBJET: 7 EST ELIMINE H: 0.20000 0.20000 ------*-----------AA---------*---------AABB---AA----*---------BBCC---AA----*---------BBCCC--AABB--*---------CCDDD--AABB--*--------CCCDDD--AABBB-*--------CCCDDD--AABBBB*--------CCCDDD--AABBBB*------CCDDDEEE--AABBBB*-----CCCDDDEEE--AABBBB*--CC-DDDEEEFFF--AABBBB*--CC-DDDDDDEEE--S: S: S: S: S: S: S: S: S: S: S: S: 0.84615 0.84211 0.81818 0.81481 0.71429 0.66667 0.53333 0.53333 0.50000 0.50000 0.44444 0.42105

H: 0.66667 H: 0.66667 H: 0.66667 H: 1.00000 H: 0.66667 H: 0.40000

LE PROGICIEL R

29

(6)

AABBBB*BBCC-DDDDDDEEE--AABBBB*BBCC-DDDDDDEEEFFAABBBB*BBCC-DDDDDDEEEFFF AABBBB*BBCC-DDDDDDEEEEEE TEMPS ECOULE: 0.7143 SEC

S: S: S: S:

0.40000 H: 0.26667 0.30000 0.28571 H: 0.66667 0.26667 H: 0.30000

Rsultat du groupement

(4)

EXPANSION DES GROUPES [ 1 .. [ 1 .. [etc.] [ 1 .. [ 1 .. [ 1 .. 2] 3] 9] 10] 11]

H: H: H: H:

0.66667 1.00000 0.44444 0.30000

Le premier groupe [1 .. 2] sert de point de dpart lexpansion

Expansion ralise de 1 11 tour de rle, chaque groupe form sert de point de dpart lexpansion

etc. etc.

[ [ [ [

19 18 17 16

.. .. .. ..

24] 24] 24] 24]

H: H: H:

0.85714 1.00000 1.00000

Le dernier groupe [19 .. 24] sert de point de dpart lexpansion Expansion ralise de 16 24

TEMPS ECOULE: 1.0083 SEC (5) TESTS ENTRE LES GROUPES [ 1 .. 2] contre [ 3 [ 10 [ 12 [ 13 [ 19 [ 3 .. 9] contre [ 10 [ 12 [ 13 [ 19 [ 10 .. 11] contre [ 12 [ 13 [ 19 [ 12 .. 12] contre [ 13 [ 19 [ 13 .. 18] contre [ 19 *

.. .. .. .. .. .. .. .. .. .. .. .. .. .. ..

9] 11] 12] 18] 24] 11] 12] 18] 24] 12] 18] 24] 18] 24] 24]

H: H: H: H: H: H: H: H: H: H: H: H: H: H: H:

0.03571 0.33333 0.33333 0.03571 0.03571 0.03571 0.14286 0.14286 0.02814 0.33333 0.10714 0.03571 0.14286 0.14286 0.07359

Pas de fusion car H alpha * ** Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha ** Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha Pas de fusion car H alpha

Cette valeur reprsente la plus faible probabilit de fusion possible entre ces deux groupes, attendu leur taille (voir le tableau 1). Elle ne reprsente donc pas ncessairement le nonrejet de H0 . ** Il sagit galement de la plus faible valeur possible de

30

LE PROGICIEL R

TESTS SUR LES OBJETS ELIMINES [ 7] contre [ 1 .. [ 3 .. [ 10 .. [ 13 .. [ 19 .. 2] 9] 11] 18] 24] H: H: H: H: H: 0.66667 0.14286 0.66667 0.14286 0.28571

* Pas de fusion car H alpha * Pas de fusion car H alpha Fusion de [7] et de [19 .. 24]

TEMPS ECOULE: 1.6521 SEC

FICHIER D'ENTREE: NOMBRE D'OBJETS : 24 NOMBRE DE VARIABLES : 41 TITRE : Fichier de donnees DATE : 02/04/91 FONCTION : s17 Fin du programme.

Identification du fichier dentre

LE PROGICIEL R

31

COCOPA NQue fait COCOPAN ? Le programme COCOPAN permet de raliser une analyse de variance un critre de classification pour des donnes quantitatives spatialement autocorrles, lorsque le critre de classification consiste en une partition du territoire ltude en des sous-rgions connexes par exemple des pays, des comts, des groupes linguistiques, des subdivisions gomorphologiques, et ainsi de suite, comme on en rencontre dans nombre de problmes dont les donnes peuvent tre reprsentes sur une carte. La mthode a t dcrite par Legendre, Oden, Sokal, Vaudor et Kim (1990). Lacronyme COCOPAN vient du nom anglais de la mthode, C ontiguity-c onstrained permutational A NOVA. Le principe de ce test par permutations consiste garder les localits immobiles, chacune conservant ses valeurs des diffrentes variables, de faon prserver la structure dautocorrlation. On permute plutt le critre de classification, soit la division de la carte en sous-rgions, avec les contraintes suivantes: chaque pseudo-rgion doit contenir le mme nombre de localits que la rgion dorigine quelle reprsente; chaque pseudo-rgion doit demeurer connexe, i.e., former une surface continue sur la pseudo-carte; enfin, les pseudo-rgions doivent occuper toute la carte dorigine, sans omission de localits ni dpassement. Le programme contient deux algorithmes permettant de rsoudre ce problme informatique: lalgorithme des cercles concentriques, conu par Alain Vaudor, et la mthode de larborescence alatoire, dveloppe par Junhyong Kim. Plusieurs variables peuvent tre analyses en une seule passe. La statistique utilise dans le test permutationnel est la somme, pour tous les groupes, des sommes de carrs intragroupes (SCE). Aprs chaque permutation, on recalcule la statistique SCE pour cette pseudo-carte; on compare enfin la valeur SCE obtenue pour la vraie carte la distribution des valeurs de SCE obtenues pour les pseudo-cartes. Le test est donc unilatral et la rgion critique se trouve lextrmit gauche de la distribution. Si vous utilisez une version du programme pour grands ordinateurs, vrifiez les constantes au dbut du programme (dclaration CONST) pour vous assurer quil pourra traiter votre problme; vrifiez en particulier la valeur de MAXLOC (nombre maximum de localits), MAXGROUPES (nombre maximum de groupes, limit 255 dans la version Macintosh) et MAXVAR (nombre maximum de variables). Vous pouvez changer ces valeurs pour traiter des problmes plus importants. Choisissez galement la langue de conversation du programme: LANG = 1 pour le franais. Fichiers dentre et de sortie

Donnes brutes

COCOPAN

Rsultats statistiques

Liste des liens

Coordonnes

Cartes

Outre les fichiers INPUT et OUTPUT qui reprsentent le clavier et lcran du terminal ou du microordinateur, trois fichiers dentre sont ncessaires ce programme; celui-ci produit, par ailleurs, deux fichiers de sortie. Le premier fichier dentre est le mme quen analyse de variance ordinaire, soit les diffrentes variables analyser ainsi que le critre de classification. Pour tenir compte de la structure spatiale, un second fichier est ncessaire, qui indique au programme quelles sont les localits

32

LE PROGICIEL R

voisines sur la carte. Enfin, si on dsire obtenir des cartes, il faut fournir au programme un troisime fichier prcisant les coordonnes gographiques de chaque localit. En sortie, on peut obtenir un fichier de statistiques ainsi que des cartes, qui sont crites sur un second fichier dans les versions pour grands ordinateurs. Tous ces fichiers sont crits en caractres lisibles (ASCII). (1) Fichier des donnes Les lignes de ce fichier correspondent aux diffrentes localits (objets). Les premires N colonnes sont les N variables analyser; la dernire colonne contient le critre de classification (groupe gographique), cod en entiers de 1 jusquau nombre de groupes k; cette valeur doit tre strictement infrieure la constante MAXGROUPES, dans la liste des constantes en tte du programme, pour les versions VMS/CMS. Ce fichier, qui porte le nom de DATAFILE dans le programme PASCAL, devrait tre compatible avec les formats dentre de la plupart des logiciels statistiques standards, ce qui permet de raliser aisment une ANOVA standard, pour fins de comparaison. Le programme COCOPAN ne peut traiter les donnes manquantes; lutilisateur doit sassurer que les localits avec donnes manquantes ont t limines des trois fichiers dentre, ou que les valeurs manquantes ont t estimes, par interpolation ou autre mthode, avant cette analyse. (2) Liste des liens entre les objets Ce fichier, qui porte le nom de LINKS dans le programme PASCAL, fournit au programme une liste des liens entre paires de localits voisines. Chaque lien est reprsent par une paire de numros de localits, crits en format libre et spars par au moins un espace. Ce fichier peut tre fabriqu laide du programme CONNEXIONS (version Macintosh) ou du programme AUTOCOR (versions VMS ou CMS); voir la description de ces programmes. Puisquil est crit en ASCII, ce fichier peut tre dit par lusager (addition ou limination de certains liens), ou encore crit entirement par lui, laide de son diteur ASCII. Cet lment de flexibilit permet de traiter des problmes reprsentant un volume plutt quune surface, pour autant que lon fournisse au programme une liste de liens reprsentant les relations de voisinage entre points-objets en trois dimensions. (3) Liste des coordonnes (X, Y) Ce fichier, qui porte le nom de COORD dans le programme PASCAL, contient la liste des coordonnes gographiques (X et Y) des localits. Il est requis si lon dsire imprimer des cartes, soit la carte dorigine ainsi que les cartes permutes, ainsi que pour le calcul de la statistique de Diamtre de l'Ensemble (DE) pour chaque pseudo-groupe. Pour que les cartes soient imprimes correctement, les coordonnes en abscisse doivent aller de la droite vers la gauche, comme les longitudes louest de Greenwich, et les valeurs en ordonne du bas vers le haut, comme les latitudes de lhmisphre nord. Autrement, les cartes pourront tre inverses. La version Macintosh peut tourner les cartes, si ncessaire, pour les adapter la forme de lcran. (4) Fichier des rsultats statistiques Le premier fichier de rsultats, qui porte le nom de STATIS dans le programme PASCAL, contient les statistiques dtailles (voir ci-dessous). (5) Fichier des cartes Ce fichier, qui porte le nom de GRAPHICS dans le programme PASCAL, est optionnel et ne sera fourni que si lusager demande que les cartes soient produites. Il sagit dun fichier spar dans les versions pour grands ordinateurs; dans la version Macintosh, les cartes sont produites directement lcran. On peut ainsi reproduire et examiner la carte dorigine ainsi que les cartes permutes (pseudo-cartes). Voir lexemple ci-dessous.

LE PROGICIEL R

33

Les questions du programme Les questions prsentes par le programme sont dcrites dans les paragraphes qui suivent. (1) Combien de permutations de la carte faut-il raliser ? On indique combien de permutations sont requises. Puisque les probabilits sont calcules en incluant les statistiques de la vraie carte parmi les rsultats que lon peut obtenir sous H 0 (mthode de Hope, 1968: voir plus bas), il convient de compter une permutation de moins que le nombre de cas dsirs. Par exemple, pour un total de 1000 statistiques dans la distribution, il faut demander 999 permutat