CARTOGRAPHIE STATISTIQUE Louis Arréghini Hubert Mazurek Institut de Recherche pour le...

Post on 04-Apr-2015

104 views 0 download

Transcript of CARTOGRAPHIE STATISTIQUE Louis Arréghini Hubert Mazurek Institut de Recherche pour le...

CARTOGRAPHIE STATISTIQUE

Louis ArréghiniHubert MazurekInstitut de Recherche pour le Développement

Contenu – Jour 1

1 – Introduction: objectif et usage de la cartographie statistique

2 – Particularités de la statistique pour la géographie

3 – Traitement à partir de la statistique descriptive

3.1 – Quelques notions de base 3.2 – Processus de discrétisation des variables 3.3 – Test de signification de la discrétisation 3.4 – Relation entre la distribution spatiale et la distribution

statistique.

4 – Symbolisation et sémiologie graphique 5 – Cartographie statistique et chorématique

Contenu – Jour 2

5 – Distribution spatiale, hétérogénéité et comparaison de données

5.1 – La mesure de la diversité 5.2 – Mesure de la spécificité en relation à un modèle 5.4 - Régression 5.5 – Analyse structure – résidus 5.7 – Analyse en composante principale et analyse de

correspondance 5.8 – Classification

6 – Traitement des données de flux.

Contenu – Jour 3

7 – Conclusion sur la construction et l’interprétation des cartes statistiques

8 – L’étude des recensementsAvantages et désavantages des recensementsComparaison entre recensements Problèmes relatifs à l’agrégation des données

9 – Indicateurs démographiques et interprétation à partir des cartes.

Des apports multiples, une diversification et une complémentarité des outils de production cartographique.

La différence SIG / CS

SIG: Changements fréquents de l’information géoréférencée

Les lieux sont plus importants que leurs caractéristiques

CS: Changement de l’information statistique

Les caractéristiques sont plus importantes que les lieux.

La géographie n’est pas seulement la cartographie:

Structure spatiale

Dynamique spatiale

Formation d’un territoire

Relations entre territoires

Facteurs qui influencent la dynamique territoriale

L’interprétation de ces processus peuvent s’appuyer sur une série de méthodes dont les méthodes statistiques sont les plus développées. Presque toutes les disciplines utilisent ces méthodes: la sociologie, l’économie ou l’écologie; en se limitant souvent aux statistiques descriptives.

Une moyenne, une distribution de fréquence peuvent elles avoir des interprétations différentes selon qu’elles s’utilisent en sociologie, en biologie ou en géographie ?

L’écart type mesure-t-il réellement une dispersion spatiale ?

Comment montrer des structures et des dynamiques au moyen de méthodes qui n’ont rien de spatial ?

PARTICULARITES DES METHODES STATISTIQUES POUR LA GEOGRAPHIE

Données et méthodes

Données

Il existe trois types de données:

Qualitatif cardinal: Modalités d’un caractère, en général discontinu: classification climatique ou classe d’une typologie.

Qualitatif ordinal: Modalités ordonnable d’un caractère; inclue les valeurs bianires (présence absence) et les classifications ordonnées, par exemple une note ou un gradient.

Quantitatif: Numération ou mesure avec des valeurs continues. La majeur partie des données apparetiennent à cette classe: population, température, production, etc.

MéthodesLes méthodes se rangent en 4 types:

Méthodes basées sur les statistiques descriptives (une, dos ou plus dimensions). On utilise les paramètres qui caractérisent la distribution des données.

Méthodes basées sur les probabilités (modèles théoriques). Il s’agit de vérifier la conformation d’une distribution avec une distribution théorique ayant les mêmes paramètres.

L’inférence statistique (estimation et hypothèse). Il s’agit de comparer la distribution des données avec un modèle et d’établir une estimation et une erreur.

Analyse multivariée : Modèles d’interraction au sein d’un ensemble de variables homogènes.

Individu – Population - Unité Les données géographiques ont une valeur

numérique plus une localisation.

Elles ne sont pas sonstitutées d’une distribution d’individus mais d’une distribution de population.

Chaque élément de la distribution est une aggrégation d’une série de caractères qui sont localisées.

L’analyse de la distribution géographique est par conséquent l’analyse de la répartition spatiale d’une distribution de population.

Les trois éléments de base de la représentation graphique

Localisation Précision Echelle

Point X,Y dX, dY Individus

      Entités

      Groupes

 

Ligne X0,Y0 - X1,Y1 dX, dY Chemin

  Angle, longitude   Axes

      Direction

      Flux

 

Polygone X0, Y0 - Xn, Yn Arête Imprécision

  Fonction POLY Noeud Individus

      Ensemble

Changement d’échelle et agrégation

Courbes de concentration suivant le niveau d’agrégation des données

Autre exemple avec l’indice de pauvreté en Bolivie

Número de unidades por classe de pobreza

0

10

20

30

40

50

60

90-100

80-90 70-80 60-70 50-60 40-50 30-40 20-30 10 20 0-10

Departamento

Provincia

Municipio

Limites de classes différentes

L’histogramme n’a pas la même structure

L’interprétation dépend de l’échelle et du niveau d’agrégation des données.

Exemple du Pando

Introduction à la distance

La métrique de Minkowski résume la mesure de la distance dans un espace à p dimensions.

p=1: distance de Manhattan p=2: distance euclidienne

(matrice des corrélations en ACP)

P=2: en utilisant la matrice de covariance: Distance D2 de Mahalanobis

1

1

n pp p

ab ai bi ai bii

d x x y y

Introduction à la distance

Distance du (Matrice de contingence en AFC)

2

2

1

1nai bi

abi i a b

i

a

f f

f f f

colonnesf

Total

f lignes

c=

é ùæ öê ú÷ç ÷= -çê ú÷ç ÷çè øê úë û

=

=

å

å

å

2c

Distances : loi de gravité

Distance euclidienne / distance réelle

(technique de la régression) =

Estimation de la dépendance

CABRAL

Programme de Cartographie Statistique

DISCRETISATION

Rappel 1 Distribution de données Distribution de fréquence Fréquence / Fréquence relative Histogramme: Superficie proportionnelle à la

valeur de chaque classe Sinon c’est un diagramme en bâtons Numéro optimum de classes:

Méthode de Hunstberger:

Méthode de Brooks-Carruthers:

xi

k n1 101 33 . log

k n2 105 log

Rappel 2

Amplitude Médiane Moyenne

arithmétique Différence

moyenne nationale, moyenne géographique

Quantiles

Variance Ecart-type Coefficient de

détermination ou de variation

Moment

Pourquoi découper en classes ?

Discrétisation Permettre une meilleure interprétation visuelle des cartes.

L’oeil humain ne peut distinguer qu’entre 8 et 10 tonalités différentes d’une même gamme.

Evaluer la similitude entre les unités. Celles qui appartiennent à la même classe peuvent être considérées comme étant très proche du point de vue statistique.

Disponer de tests fiables pour mesurer cette similitude.

Tester des hypothèses en relation à la méthode utilisée.

Dans une certaine mesure, l’utilisation de classes permet d’éliminer certaines erreurs de l’échantillonnage. Ceci peut se tester.

Types de discrétisation Méthodes arithmétiques non statistiques

Equidistance Progression arithmétique Progression géométrique

Méthodes statistiques Quantiles Par écart-type Moyennes emboîtées Jenks ou analyse de variance Equiprobabilités

Méthodes graphiques Histogramme Courbe clinographique Courbe de distance ou de superficie

Relation structure spatiales et distribution statistique

Exercice 1 Ouvrir Cabral Menu Fichier / Espace de Travail / Répertoire

Choisir le répertoire où se trouve le matériel Menu Fichier / Espace de Travail / Nouveau ou F2

1 – Utilisation des fichiers SAS (fcant90.sas et fond-dep-canton.sas)

Fichier des données : densite-cant.txt Faire la carte des densités Refaire la manip avec le fonds Adobe (fond-cantons.ai)

Regarder l’histogrammeConclusion ?

Faire Ctrl+E , Ctrl+A , Ctrl+G , Ctrl+S, Ctrl+QConclusion sur cette dernière phase ?